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为 什么 要 写 这 本 书 


不 知 从 何 时 开始 我 们 已 周身 没入 大 数据 时 代 的 背 流 ， 不 知 不 澳 被 
卷 入 了 大 数据 时 代 。 


无 论 是 每 天 上 网 看 网 页 、 聊 QQ、 聊 微 信 ， 或 者 登录 银行 、 网 购 、 
KR, mendo Rie, BE Ben AAS ` Be > AKA 
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他 人 生产 的 数据 ， 我 们 使 用 的 众多 家 电 产 品 ， 每 一 个 设计 细节 都 融入 
了 设计 者 对 用 户 体 验 数 据 的 调查 与 分 析 ; 我 们 使 用 的 每 一 部 手机 、 每 
一 台电 脑 ， 每 一 个 部 件 的 产 出 都 融入 着 多 得 无 法 想象 的 指标 数据 控制 
下 的 生产 与 监控 ;我 们 访问 的 每 一 个 网 页 、 每 一 个 软件 ， 每 一 次 皖 受 
到 的 贴心 的 产品 改动 和 服务 的 升级 ， 无 不 浸透 着 无 数 的 数据 谍 集 与 精 
细 的 分 析 和 有 反馈。 这 古 一 场 慢 慢 到 来 的 、 贯 罕 所 有 产业 的 章 命 ， 这 是 
一 次 润 物 细 无 声 的 各 行业 业 耕 细作 的 开端 。 


不 管 我 们 是 不 是 愿意 ， 不 管 我 们 有 没有 意识 到 ， 我 们 现在 已 经 号 
处 大 数据 时 代 的 奇 点 ， 而 未 来 要 迎接 的 是 大 数据 奇 点 爆炸 给 我 们 市 来 
的 冲击 力 。 我 们 需要 力量 来 各 图 浪 里 的 航船 ， 我 们 需要 乘风破浪 前 进 
的 动力 。 


在 这 一 次 远航 中 ， 我 们 不 必 担 心目 己 的 能 力 水 平 无 法 感知 数据 这 
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的 数据 挖 所 和 机 硕 学 习 的 读本 ， 这 是 一 本 没有 门 梧 的 机 大 学 习 实战 手 
册 。 让 我 们 一 起 扬帆 远航 吧 ! 


本 书 特色 


从 行为 脉络 来 看 ， 本 书 基本 上 起 从 数据 统计 、 数 据 指标 理解 、 数 
据 模型 、 素 类 /分 类 与 机 右 学 习 、 数 据 应 用 、 大 数据 框架 补充 知识 ， 以 
及 扩展 讨论 这 样 的 角度 来 层 层 深入 完成 的 。 


这 种 方式 会 给 读者 比较 好 的 市 入 感 ， 让 大 家 一 一 尤其 是 不 擅长 数 
学 的 读者 降低 对 大 数据 与 机 右 学 习 算 法 的 你 惧 感 。 如 末 读 者 朋友 对 排 
列 组 合 、 统 计 分 布 这 些 基础 知识 比较 了 解 ， 完 全 可 以 考虑 跳 过 这 些 部 
分 直接 去 读 后 面 更 感 兴趣 的 内 容 。 


为 了 调 广 阅读 气氛 ， 我 们 还 答 试 加 入 了 一 些 漫画 插图 。 为 了 让 读 
者 朋友 能 够 更 快 地 进行 实践 ， 我 们 几乎 在 每 一 个 算法 讲解 后 都 配 有 
Python 或 者 SQL 语言 的 实现 部 分 。 相 信 这 些 能 够 帮助 大 家 更 快 、 更 轻 
松 地 阅读 本 书 。 


读者 对 象 


(1) 对 大 数据 感 兴趣 但 是 完全 不 了 解 的 技术 人 员 。 
(2) 对 机 器 学 习 和 数据 挖掘 比较 感 兴趣 的 技术 人 员 。 


(3) 大 数据 初级 从 业 人 员 。 


如 何 阅 读本 书 


本 书 一 共 分 为 18 章 。 


第 1 章 ~ 第 5 章 为 入 门 所 需 基础 知识 及 对 数据 指标 运营 的 阐述 。 


第 6 章 ~ 第 10 章 是 对 数据 挖掘 基础 知识 与 算法 的 介绍 。 


第 11 章 ~ 第 18 章 为 生产 应 用 与 高 级 扩展 。 


其 中 ， 第 1 章 ~ 第 15 章 正文 内 容 ， 以 及 第 17 章 、 第 18 章 的 正文 内 容 
由 高 扬 编 写 。 


全 书 所 有 的 Python 代码 由 卫 峰 编写 与 补充 整理 。 


第 16 章 、 附 隶 全 部 由 形 会 生 编 写 。 


全 书 所 有 的 漫画 插画 由 万 娟 创作 完成 。 
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由 于 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 
准确 的 地 方 ， 司 请 读者 批评 指正 。 如 果 你 有 更 多 的 宝贵 意见 ， 欢 迎 扫 
描 下 方 的 二 维 码 ， 关 注 “ 奇 点 大 数据 ” 微 信 公众 号 和 我 们 进行 互动 讨 
论 。 关 广大 数据 尖端 技术 发 展 ， 关 注 “ 奇 点 大 数据 ”。 


同时 ， 你 也 可 以 通过 邮箱 77232517@qq.com 联 系 到 我 ， 期 待 能够 
得 到 你 的 真理 反馈 ， 在 技术 之 路 上 互 揭 共 进 。 


致谢 
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1.1 大 数据 产业 现状 


大 数据 是 近 几 年 来 都 一 直 非 常 火热 的 一 个 名 词 ， 似 乎 是 伴随 着 “ 互 
联网 ”的 逐渐 发 展 所 出 现 的 一 个 新 名 词 。 我 们 在 天 天 听 着 “互联 网 +” 的 
同时 也 在 听 说 “大 数据 +”。 


大 数据 其 实 是 一 个 比较 抽象 和 笼统 的 概念 ， 应 该 说 这 个 词 是 为 了 
泗 盖 性 地 表达 一 系列 生产 和 业务 行为 的 一 个 统称 。 但 是 也 正 古 由 于 这 
种 抽象 和 过 于 简略 的 称谓 方式 ， 让 每 个 人 都 容易 对 这 个 词 产 生 见 仁 见 
智 的 不 同 视角 的 印象 或 者 看 法 。 


大 数据 是 一 个 以 数据 为 核心 的 产业 ， 是 一 个 围绕 大 数据 生命 周期 
不 断 循环 往 复 的 生产 过 程 ， 同 时 也 是 由 多 种 行业 分 工 和 协同 配合 而 产 
生 的 一 个 复合 性 极 高 的 行业 。 

在 我 看 来 ， 大 数据 产业 生产 流程 从 数据 的 生命 周期 的 传导 和 演变 
上 可 以 分 为 这 样 儿 个 部 分 : 数据 收集 、 数 据 存 储 、 数 据 建 模 、 数 据 分 
析 、 数 据 变现 。 


其 中 每 个 环节 都 是 非常 重要 的 数据 生命 环节 ， 每 个 环节 的 生产 加 
工行 为 都 是 有 其 价值 的 ， 并 且 每 个 环节 做 到 极致 都 可 以 成 就 一 个 伟大 


的 公司 。 整 个 完整 的 产业 生态 圈 束 是 大 数据 ， 它 的 缩影 也 渗透 在 任何 
一 家 以 数据 作为 运 膏 基础 的 公司 中 。 


根据 麦肯锡 2011 年 发 布 的 一 份 研究 报告 ， 到 2018 年 世界 范围 内 将 
会 出 现 高 达 14 万 ~19 万 的 “大 数据 ?岗位 空缺 。 而 艾 瑞 咨询 集团 在 “2014 
年 会 ?上 曾 指 出 ， 全 球 数据 量 每 18 个 月 翻 一 番 ， 到 2015 年 ， 中 国 专用 数 
据 分 析 人 员 预 计 缺 口 1400 万 。 


可 以 看 到 ， 在 仅仅 三 四 年 的 时 间 间 隔 上 ， 两 家 咨询 公司 做 出 的 预 
测 都 很 大 胆 ， 但 是 两 个 估算 数字 相差 也 确实 非 第 巧 殊 。 究 葛 哪 个 数 子 
更 贴近 “事实 ”并 不 好 判断 ， 因 为 大 家 对 “大 数据 ”的 概念 边界 理解 可 能 
有 很 大 的 偏差 ， 信 算出 现 偏差 古 必 然 的 ， 但 是 有 一 点 可 以 肯定 ， 大 数 
据 人 才 缺 口 一 定 是 未 来 几 年 非常 显 堵 的 问题 。 


2015 年 12 月 21 日 ， 全 球 第 一 家 大 数据 交易 所 一 一 贵阳 大 数据 交易 
所 经 过 半年 多 的 发 展 ， 交 易 金 额 已 突破 6000 万 元 人 民 币 ， 会 员 数 量 超 
过 300 家 ， 接 入 贵阳 大 数据 交易 所 的 数据 源 公 司 超过 100 家 ， 数 据 总 量 
超过 10PB， 已 发 生 实际 交易 的 会 员 超 过 70 家 。 预 计 在 未 来 3~5 年 ， 交 
易 所 日 交易 额 将 突破 100 亿 元 1。 


截至 目前 ， 中 国境 内 除了 贵阳 大 数据 交易 所 以 外 ， 还 有 长 江 大 数 
据 交 易 所 、 东 湖 大 数据 交易 所 、 案 州 大 数据 交易 所 等 十 余 家 大 数据 交 
易 所 挂牌 营业 。 


2016 年 1 月 ， 阿 里 云 的 “ 数 加 ”大 数据 平台 和 人 金山 云 的 KMR 平 台 
国内 大 品牌 云 产品 供应 商 的 重 磅 产品 先后 登场 ， 几 乎 所 有 有 远见 的 云 
产品 巨 璧 资本 都 在 向 大 数据 产业 链 集 中 。 但 是 这 块 蛋糕 似乎 有 点 太 大 
了 ， 只 能 边 烘 焙 边 分 割 ， 谁 也 没 办 法 一 下 子 全 吃 掉 。 


[1] 来 自 《 新 华 网 》 的 报道 。 


1.2 ”对 大 数据 产业 的 理解 


“大 数据 ”这 个 人 造 词汇 其 实 很 容易 产生 不 少 误解 ， 尤 其 是 这 
个 “大 ” 子 ， 很 容易 让 人 感觉 ， 数 据 量 必须 大 ， 而 且 特 别 大 ， 越 大 越 能 
形成 产业 ， 也 越 有 价值 。 其 实 这 真 的 是 “大 数据 ”给 人 市 来 的 误导 。 
数据 产业 的 存在 其 实 和 其 他 产业 并 无 二 人 致 ， 本 里 是 为 了 给 其 他 产业 提 


供 服务 。 


做 个 假设 ， 假 如 现在 给 石油 产业 冠 以 “大 石油 ”产业 的 名 字 ， 那 么 
会 影响 石油 行业 本 身 对 其 他 行业 的 服务 样 态 吗 ? 应 该 不 会 。 

在 “大 石油 ”产业 里 ， 同 样 有 人 从 事 着 这 样 的 工作 内 容 : 石油 勘 
探 、 石 油 开采 、 石油 运输 、 石 油 提炼 、 石 油 产品 销售 等 多 个 细 分 领域 
和 环节 。 


最 后 提供 给 社会 的 是 由 大 量 人 工 和 智慧 凝结 在 石油 产品 上 的 服 
务 ， 而 这 些 服务 极 大 地 方便 并 满足 了 社会 各 领域 对 于 工业 能 产 、 建 筑 
MAS > Blam Le ` ARS TES > BRA ae Ry AAR Se oe le EH 
mek o WAEREA AH, HARRIE SMA, He 
没有 乙烯 等 重要 化 工 原 材料 的 来 源 ， 有 是 否 存在 塑料 这 样 一 种 廉价 的 工 
业 制 造 材料 都 很 难说 ， 那 么 各 个 产业 则 需要 用 其 他 造价 更 为 高 昂 的 材 
料 对 其 进行 取代 ， 更 不 用 提 家 用 的 天 然 气 和 裕 化 石油 气 了 ， 人 们 只 能 


再 去 寻找 其 他 能 源 : BANG U RAAT, BA f Rm 
一 一 如 氢气 。 人 们 之 所 以 选用 石油 作为 整个 产业 链 的 根源 ， 并 把 它 发 
展 成 一 个 完整 的 产业 也 是 由 于 这 样 的 原因 ， 大 概 这 个 逻辑 十 比较 容易 
理解 的 。 


类 比 一 下 “大 数据 ”产业 ， 数 据 收集 、 数 据 传输 、 数 据 存 储 、 数 据 
建 模 、 数 据 分 析 、 数 据 交 易 贯 穿 了 大 数据 产业 的 完整 产业 链 。 在 这 个 
产业 链 里 同样 缠 含 着 和 “大 石油 ”一 样 的 东西 ， 这 个 东西 是 什么 ? 


数据 通过 各 种 软件 进行 收集 ， 通 过 网 络 进行 传输 ， 通 过 云 数据 中 
心 进行 存储 ， 通 过 数据 科学 家 或 者 行业 专家 进行 建 模 和 加 工 ， 最 后 数 
据 分 析 得 到 的 是 一 种 知识 ， 是 一 种 人 们 通过 数据 洞悉 世界 的 能 力 。 数 
据 之 间 本 来 彼此 错综复杂 的 潜在 关系 会 使 得 大 量 抓 立 而 多 来 源 的 数据 
同时 出 现在 一 个 舞台 后 显得 更 为 有 趣 ， 大 量 看 似 不 相关 的 事情 却 能 够 
通过 观察 与 分 析 后 告诉 人 们 更 多 背后 的 因果 。 这 些 因 末 联系 的 意义 会 
让 人 们 在 各 个 方面 能 够 推测 未 来 趋势 ， 减 少 试 蚀 的 机 会 ， 减 少 成 本 ， 
降低 风险 ， 解 放 劳 动力 。 笔 者 认为 这 才 是 大 数据 产业 本 喘 的 价值 与 意 
See 


1.3 六 数据 人 才 


1.3.1 ”供需 失衡 


大 数据 产业 既然 如 此 炙手可热 ， 那 么 大 数据 人 才 的 每 遇 如 何 呢 ? 
这 一 点 其 实 不 用 多 说 ， 只 要 大 家 时 前天 注 一 些 猎头 QQ 群 的 状态 ， 或 者 
猎头 朋友 的 签名 档 内 容 ， 再 或 者 干脆 到 “ 猎 聘 网 ”`“ 前 程 无 忧 ” 等 专业 
的 人 才 中 介 网 站 去 看 看 就 会 了 然 于 胸 一 -30 万 年 薪 找 不 到 人 ，40 万 年 
薪 找 不 到 人 ，50 万 、60 万 还 是 找 不 到 人 ， 一 时 间 可 谓 阁 阳 纸 贯 ， 似 乎 
市 场 上 的 大 数据 人 才 是 “一 将 难 求 *。 这 也 从 一 个 侧面 说 明 ， 很 多 公司 
层 意 花 这 么 多 薪水 雇佣 一 位 大 数据 人 才 ， 不 管 他 的 头衔 是 大 数据 科学 
家 ， 还 是 大 数据 杂 构 师 ， 抑 或 是 大 数据 产品 经 理 ， 很 显然 这 些 公司 都 
是 把 大 数据 产业 发 展 作为 自己 的 经 营 战略 的 重要 组 成 部 分 来 看 待 。 


大 数据 人 才 的 一 将 难 求 其 实 不 柯 怪 ， 因 为 人 才 既 然 是 市 场 的 一 部 
分 ， 是 一 种 特殊 的 “商品 ”， 那 惑 必然 受到 市 场 因 素 的 调和 ， 供 需 挛 重 
失衡 才 会 有 这 样 的 现象 。 但 是 ， 为 什么 大 数据 人 才 会 供需 斑 重 失衡 
WE? 原因 有 以 下 两 个 。 


(1) 大 数据 产业 发 展 迅速 ， 很 多 公司 都 越 来 越 意识 到 要 将 大 数据 
作为 目 己 公司 经 营 战略 不 可 或 缺 的 一 部 分 ， 殊 像 销 售 、 生 产 、 公 关 这 


样 的 重要 环节 一 样 缺 一 不 可 。 人 才 需 求 旺 盛 ! 


(2) 大 数据 人 才 培养 成 本 居 高 不 下 ， 培 养 周期 长 ， 成 材 率 相对 较 
低 ， 这 也 是 导致 大 数据 人 才 缺 乏 的 一 个 非常 重要 的 原因 。 人 才 供 应 不 
KE! 


1.3.2 AFJ I 


从 目前 市 场 上 的 人 才 需 求 观 点 来 看 ， 大 数据 人 才 大 致 可 以 分 为 以 
下 3 个 方 同 。 


(1) 偏重 基建 与 染 构 的 “大 数据 架构 ”方向 。 


(2) 偏重 建 模 与 分 析 的 “大 数据 分 析 ” 方 向 。 


(3) 偏重 应 用 实现 的 “大 数据 开发 "方向 。 


当然 ， 也 有 理想 主义 者 会 认为 能 来 个 三 合 一 的 人 才 束 更 好 了 ， 但 
是 知识 视 度 和 知识 深度 本 身 束 是 一 组 矛盾 ， 毕 竟 对 于 有 限 的 学 习 时 间 
和 精力 ， 能 够 在 一 方面 做 到 运用 自如 已 属 不 易 。 


1. 大 数据 架构 方向 


大 数据 架构 方向 的 人 才 更 多 注重 的 是 Hadoop、Spark、Storm 等 大 
数据 框架 的 实现 原理 、 部 署 、 调 优 和 稳定 性 问题 ， 以 及 它们 与 
Flume、Kafka 等 数据 流 工具 以 及 可 视 化 工具 的 结合 拉 巧 ,再 有 就 是 一 
些 工具 的 商业 应 用 问题 ， 如 Hive、Cassandra、HBase、PrestoDB 等 。 
能 够 将 这 些 概念 理解 清楚 ， 并 能 够 用 办证 的 技术 观点 进行 组 合 使 用 ， 


达到 软 / 硬 件 资源 利用 的 最 大 化 ， 服 务 提供 的 稳定 化 ， 这 是 大 数据 架构 
人 才 的 目标 。 


以 下 是 大 数据 染 构 方向 研究 的 主要 方面 。 


(1) 架构 理论 : 关键 词 有 高 并 发 、 高 可 用 、 并 行 计 算 、 


MapReduce、Spark 等 。 


(2) 数据 流 应 用 : 关键 词 有 Flume、EFluentd、Kafka、ZMQ 等 。 
(3) 存储 应 用 : 关键 词 有 HDFS、Ceph 等 。 


(4) 软件 应 用 : 关键 词 有 Hive、HBase、Cassandra、PrestoDB 
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(5) 可视化 应 用 ， 关 键 词 有 HightCharts、ECharts、D3、 
HTML5、CSS3 等 。 


大 数据 架构 师 除 了 最 后 可 视 化 的 部 分 不 需要 太 过 注意 (但 是 要 做 
基本 的 原理 了 解 ) 以 外 ， 其 他 的 架构 理论 层面 、 数 据 流 层面 、 存 储 层 
面 、 软 件 应 用 层面 等 都 需要 做 比较 深入 的 理解 和 落地 应 用 。 尤 其 是 需 
要 至 少 由 每 一 个 层面 中 挑选 一 个 可 以 完全 纯熟 应 用 的 产品 ， 然 后 组 合 
成 一 个 完整 的 应 用 场景 ， 在 访问 强度 、 实 现成 本 、 功 能 应 用 层面 都 能 
满足 需求 ， 这 有 是 一 个 合格 的 大 数据 架构 师 必 须 完成 的 最 低 限 要 求 。 


2. 大 数据 分 析 方 同 


大 数据 分 析 方 同 的 人 才 更 多 注重 的 是 数据 指标 的 建立 ， 数 据 的 统 
计 ， 数 据 之 间 的 联系 ， 数 据 的 深度 挖 气 和 机 器 学 习 ， 并 利用 探索 性 数 
据 分 析 的 方式 得 到 更 多 的 规律 、 知 识 ， 或 者 对 未 来 事物 预测 和 预 判 的 
手段 。 


以 下 是 大 数据 分 析 方 向 研究 的 主要 方面 。 


(1) 数据 库 应 用 : 关键 词 有 RDBMS ` NoSQL ` MySQL ` Hive ` 


Cassandra 等 。 
(2) 数据 加 工 : 关键 词 有 ETL、Python 等 。 
(3) 数据 统计 : 关键 词 有 统计 、 概 率 等 。 


(4) 数据 分 析 ， 关 键 词 有 数据 建 模 、 数 据 挖掘、 机 絮 学 习 、 回 归 
4T ^ FER > PR > WALES o 


此 外 还 有 一 个 方面 古 业 务 知识 。 


其 中 ， 数 据 库 应 用 、 数 据 加 工 古 通用 的 技术 技巧 或 者 工具 性 的 能 
力 ， 主 要 钙 为 了 帮助 分 析 师 调用 或 提取 目 己 需要 的 数据 ， 毕 葛 这 些 技 
巧 的 学 习 成 本 相对 较 低 ， 而 且 在 工作 场景 中 不 可 或 缺 ， 而 每 次 都 求人 
去 取 数 据 很 可 能 会 消耗 过 多 的 时 间 成 本 。 


数据 统计 、 BORAT ee DT AS BRL, BOR UI T HET 2 
分 析 师 的 主 业 ， 要 有 比较 好 的 数学 素养 或 者 思维 方式 ， 而 且 一 般 来 说 
数学 专业 出 喘 的 人 会 有 相当 的 优势 。 最 后 的 业务 知识 方面 就 是 干 姿 百 
仿 了 ， 毕 苋 每 家 行业 甚至 每 家 公司 的 业务 形态 都 古 千 差 万 别 的 ， 只 
对 这 些 业 务 形态 和 业务 流程 有 了 充分 的 理解 才能 对 数据 分 析 做 到 融会 
贯通 ， 才 有 可 能 正确 地 建立 模型 和 解读 数据 。 


3. 大 数据 开发 方 同 


大 数据 开发 方 同 的 人 才 更 多 注重 的 是 服务 器 端 开发 ， 数 据 库 开 
A, 呈现 与 可 视 化 ， 人 机 交互 等 衔接 数据 载体 和 数据 加 工 各 个 单元 以 
及 用 户 的 功能 落地 与 实现 。 


以 下 是 大 数据 开发 研究 的 主要 方面 。 


(1) 数据 库 开 发 : 关键 词 有 RDBMS ` NoSQL ` MySQL ` Hive 
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(2) 数据 流 工具 开发 : 关键 词 有 Flume、Heka ^ Fluentd ^ 


Kafka ^ ZMQ® ° 


(3) 数据 前 端 开发 : 关键 词 有 HightCharts、ECharts、 
JavaScript ^ D3 ^ HTML5 ` CSS3# ° 


4) 数据 获取 开发 : KANE ` 分词 、 上 自然 语言 学 习 、 文 本 


可 以 注意 到 ， 大 数据 开发 职 种 和 大 数据 以 构 方 向 有 很 多 关键 词 虽 
然 旦 重合 的 ， 但 是 措 秤 不 一 样 ， 一 个 是 "应 用 ”， 一 个 是 “开发 ”。 区 别 
TET, “应 用 ”更 多 的 是 懂得 这 些 这 种 技术 能 为 人 们 提供 什么 功能 ， 以 
及 使 用 这 种 技术 的 优 缺 点 ， 并 擅长 做 取舍 ; “开发 "更 注重 的 是 熟练 掌 
握 ， 快 速 实现 。 


最 后 一 个 方面 一 一 数据 获取 开发 与 前 面 的 数据 库 开 发 、 数 据 流 工 
具 开 发 、 数 据 前 端 开发 略 有 不 同 ， 它 出 现 的 时 间 相 对 较 晚 ， 应 用 面相 
对 较 罕 。 现 在 很 多 数据 公司 ， 如 淘 森 路 透 、 绢 博 等 咨询 公司 的 数据 除 
了 从 专业 行业 公司 直接 得 到 以 外 ， 很 多 也 是 从 互联 网 上 扑 取 的 ， 这 个 
过 程 中 也 涉及 一 些 关 键 技术 。 


1.3.3 ” 环 广 和 工具 


前 面 提 到 过 ， 大 数据 从 数据 的 生命 周期 的 传导 和 演变 上 可 以 分 为 
这 样 几 个 部 分 ， 数据 收集 ， 数 据 存 储 ， 数 据 建 模 ， 数 据 分 析 ， 数 据 变 
现 ， 如 图 1-1 所 示 。 


图 1-1 数据 生命 周期 中 的 环 市 


1. 数 据 收 集 


完成 数据 收集 是 做 大 数据 的 第 一 步 ， 这 里 请 注意 ， 数 据 的 收集 和 
平时 在 业务 生产 库 上 的 做 法 不 太一 样 ， 而 是 更 像 以 前 数据 仓库 里 的 收 
集 方式 。 


方法 一 : 快照 法 。 可 以 每 天 、 每 周 、 每 月 用 数据 快照 的 方式 把 当 
前 这 一 瞬间 的 某 数据 的 状态 复制 下 来 放 入 相应 的 位 置 一 一 这 个 位 置 就 
征 大 数据 的 数据 中 心 所 采用 的 数据 容 货 ， 可 以 用 Hive 实 现 ， 也 可 以 用 
Oracle 或 者 其 他 专业 的 数据 仓库 软件 实现 。 


方法 二 : ”可 以 使 用 一 些 工 具 来 进行 流 式 的 数据 导入 ， 如 TCP 流 或 
者 HTTP 长 / 短 链接 。 


2. 数 据 存储 


数据 存储 的 方式 也 是 比较 多 样 的 ， 当 数据 收集 进入 数据 中 心 时 ， 
可 以 考虑 使 用 HDFS 或 者 Ceph 等 开源 并 且 低 成 本 的 方案 ， 数 据 量 较 小 的 
时 候 可 以 采用 NAS 直 接 mount 到 一 台 Linux 服 务 器 的 某 挂 载 点 。 比较 推 
存 HDFS 和 Ceph 主 要 是 因为 这 两 种 框架 在 业 弄 已 经 有 了 长 时 间 的 应 用 ， 
社区 活跃 ， 方 案 成 熟 稳定 ， 部 署 价格 低廉 且 扩 展 性 极 好 。 


3. 数 据 建 模 


数据 建 模 是 一 个 人 为 因素 影响 比较 大 的 环节 ， 我 们 这 里 提 到 的 数 
据 建 模 是 指数 理 关 系 的 梳理 ， 并 根据 数据 建立 一 定 的 数据 计算 方法 和 
数据 指标 。 一 般 来 说 ， 在 一 个 比较 成 熟 的 行业 里 ， 数 据 指标 相对 有 是 比 
较 固定 的 ， 只 要 对 业务 有 足够 的 了 解 是 比较 容易 建立 起 运营 数据 模型 
的 。 使 用 人 们 熟悉 的 SQL 语言 就 可 以 对 存储 容器 中 的 数据 进行 筛选 和 
洗 谋 ， 如 采 数 据 存 储 的 容 郁 是 其 他 的 异 构 容 希 ， 如 HBase 或 者 Mongodb 
等 ， 束 只 能 使 用 它们 目 己 的 操作 Shell 去 操作 了 。 


在 这 里 需要 提 一 句 ， 有 一 个 比较 重要 的 环 市 是 数据 清洗 。 不 同 的 
业务 习惯 下 ， 清 洗 有 着 不 同 的 解释 ， 但 核心 思想 都 是 让 数据 中 那些 由 
于 误 传 、 漏 传 、 枉 传 等 原因 产生 的 数据 失真 部 分 被 据 弃 在 计算 之 外 。 
此 外 ， 原 始 数据 从 非 格式 化 变 成 格式 化 需要 一 个 “整形 ”的 过 程 ， 目 的 
苹 让 它 能 够 和 其 他 数据 进行 参照 来 运算 ， 清 洗 同样 注 盖 这 个 “整形 ”的 


过 程 。 也 有 人 习惯 把 这 个 环节 直接 放 在 数据 收集 的 部 分 一 次 性 完成 ， 
完 竟 哪 种 方式 比较 好 不 能 一 概 而 论 : 在 数据 收集 的 时 候 就 直接 “ 整 
”完毕 ， 可 能 会 使 后 面 的 数据 存储 、 建 模 等 环 让 处 理 起 来 成 本 更 低 一 
， 这 是 它 的 好 处 ; 但 是 在 这 个 过 程 中 会 发 生 一 部 分 数据 裁剪 的 动 
作 ， 而 裁减 挥 的 数据 所 级 含 的 信息 以 后 再 想 找 回 十 不 可 能 的 。 台 优 了 
劣 还 是 因地制宜 地 进行 讨论 比较 好 。 
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4. 数 据 分 析 

数据 分 析 是 这 些 环 节 里 面 一 个 比较 重要 的 环节 。“ 分 析 ” 两 个 字 的 
含义 可 以 包含 两 个 方面 的 内 容 : 一 个 是 在 数据 之 间 堂 试 寻求 因果 关系 
或 影响 的 逻辑 ， 另 一 个 是 对 数据 的 呈现 做 适当 的 解读 。 


这 两 个 方面 或 许 有 重 琶 的 部 分 ， 但 是 笔者 认为 这 两 个 方面 还 是 可 
以 分 开 来 理解 的 ， 前 者 偏重 数据 挖 气 、 试 错 与 反复 比 对 ， 后 者 偏重 业 
务 结合 、 行 业 情景 带 入 等 。 但 是 两 者 都 是 货真价实 的 分 析 工 作 ， 这 点 
党 无 疑问 。 数 据 分 析 的 工具 在 “市 面 * 上 有 不 少 ， 有 开源 的 ， 也 有 收费 
的 ， 到 现在 其 实 没 有 特别 好 用 的 ， 大 多 使 用 的 时 候 门槛 较 高 而 且 使 用 
习惯 十 分 西方 化 。 目 前 收费 的 软件 里 比较 好 的 有 IBM 的 SPSS、SAP 的 
BW/BO， 以 及 微软 的 SSAS 和 SSRS; 开源 的 软件 里 有 Mahout、Spark 
ML Lib ` Python Pandas 等 。 收 费 软件 里 通常 会 把 控 据 分 析 和 可 视 化 结 
合 得 比较 好 ， 而 开源 软件 里 主要 是 封装 的 算法 比较 多 ， 但 是 环 市 较为 


孤立 ， 绘 图 的 丰富 程度 和 美观 程度 会 大 打折 扣 或 者 干脆 没有 ， 那 么 这 
个 环 广 束 需 要 使 用 者 自己 想 办 法 了 。 
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征 迁 移 性 地 
的 介绍 。 


大 数据 开发 不 是 一 个 由 大 数据 带 来 的 新 方向 ， 它 更 
使 用 旧 有 技术 ， 技 术 突破 也 比较 有 限 ， 所 以 这 里 不 做 过 
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1. 大 数据 架构 方 癌 


对 于 大 数据 涤 构 方 向 ， 在 资料 方面 虽然 近 两 年 涌现 出 很 多 翻译 资 
料 ， 也 有 很 多 国内 噩 手写 出 不 少 实战 心得 ， 但 是 对 于 层出不穷 的 优秀 
开源 框架 来 说 ， 资 料 的 更 新 多 少 显 得 有 些 跟 不 上 脚步 。 这 大 概 是 目 学 
成 才 的 大 数据 架构 师 们 很 多 不 得 不 一 边 翻 看 着 英文 文档 ， 一 边 翻 看 着 
源 代 码 ， 一 边 试 来 试 去 的 原因 。 而 同时 ， 越 来 越 多 的 染 构 师 们 也 将 目 
己 的 心得 写成 越 来 越 多 的 参考 书籍 ， 这 些 书 籍 的 丰富 也 使 大 数据 染 构 
领域 奋战 的 同行 们 有 了 更 多 的 参考 ， 有 了 更 快 进步 的 动力 。 


2. 大 数据 分 析 方 同 


对 于 大 数据 分 析 方 向 ， 在 淘宝 或 者 京东 上 试 着 翻 看 一 下 ， 其 实 书 
籍 比 前 者 要 缺乏 得 多 。 虽 然 有 一 些 不 错 的 数据 挖掘 与 机 器 学 习 的 书 ， 
也 有 一 些 关 于 Mahout、Spark ML Lib 和 文本 挖掘 、 神 经 网 络 的 书 被 摆 
上 货架 ,但 是 笔者 也 经 常 听 一 些 同行 抱怨 这 类 书 有 不 少 问题 不 尽 如 人 
意 。 英 译 中 版 本 的 书 有 不 少 翻译 生 涩 、 阅 读 困 难 ， 而 且 解 析 不 够 细 


致 ， 默 认 读者 已 经 掌握 了 大 量 的 数理 统计 或 概率 学 的 知识 ;而 Mahonut 
之 类 开源 数据 挖掘 项 目的 书籍 ， 要 么 驳 是 由 官方 文档 翻译 而 来 新 意 全 
无 ， 要 么 就 古 由 于 成 书 较 慢 早已 落后 于 当前 的 最 新 版 本 ， 所 以 让 人 读 
起 来 如 哆 鸡肋 。 


3. 市 场 参与 


在 我 看 来 ， 大 数据 行业 目前 不 够 繁 采 的 原因 众多 ， 但 是 究 其 根本 
束 古 因为 它 目前 还 不 古 一 门 “生意 ”"， 距离 大 量 上 自由 交易 有 价值 的 数据 
这 一 目标 还 相差 太 远 。 这 种 交易 既 存 在 于 公司 和 组 织 之 间 ， 也 存在 于 
公司 内 部 。 现 在 去 看 身边 最 繁 采 的 市 场 ， 如 大 超市 、 大 型 网 店 ， 它 们 
火爆 的 原因 关键 在 于 流量 大 、 区 易 目 由 、 交 易 成 本 低 、 交 易 参与 方 众 
多 。 大 数据 行业 想 要 真正 实现 民 性 和 快速 发 展 ， 关 键 在 于 提高 行业 的 
市 场 化 普及 度 。 换 铝 话说， 大 数据 市 场 供需 越 丰富 市 场 丈 越 案 采 。 而 
市 场 供需 的 繁 采 靠 的 是 参与 方 的 丰富 ， 以 及 交易 内 容 的 丰富 。 


那么 支持 参与 方 的 不 断 丰 富 和 交易 内 容 不 断 丰 是 的 源 动力 是 什么 
NE? 当然 是 人 们 经 常 说 的 去 中 心 化 和 降低 参与 门框 。 说 到 属 ， 让 尽 可 
能 多 的 人 成 为 大 数据 行业 中 的 价值 制造 者 ， 这 可 能 才 是 大 数据 行业 进 
步 的 关键 点 所 在 。 大 数据 产业 中 最 有 价值 的 层面 在 哪里 ?应 该 说 ,在 
数据 收集 、 数 据 存储 、 数 据 建 模 、 数 据 分 析 、 数 据 变 现 这 几 个 主要 环 
节 中 ， 只 有 数据 建 模 和 数据 分 析 这 两 个 环节 离 数 据 变现 ， 即 创造 价值 


更 近 ， 而 数据 收集 和 数据 存储 这 两 个 环节 做 得 再 好 也 只 是 离 节约 成 本 
更 近 ， 而 对 促进 市 场 化 普及 的 帮助 较为 间接 。 


因 目 前 数据 分 析 书 籍 的 缺乏 ， 阅 读 门 槛 的 障碍 ， 业 内 人 士 对 知识 
的 淘 求 ， 种 种 因素 使 我 决心 答 试 着 写 一 本 门槛 更 低 ， 更 易 理 解 ， 更 “ 平 
民 化 ”的 数据 挖掘 与 机 紫 学 习 的 书籍 。 
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只 要 我 们 肯 多 进行 观察 、 学 习 和 思考 ， 任 何 领 域 任 何 业 务 都 会 至 受到 
大 数据 产业 为 我 们 带 来 的 各 种 好 处 。 

笔者 问 过 一 些 试 读 过 本 书 的 朋友 ， 他 们 有 的 是 大 专 毕业 ， 有 的 是 
大 学 本 科 毕 业 但 是 由 于 专业 设 定 的 原因 没有 学 过 高 等 数学 ， 基 本 还 是 
HEUS ES ° 
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函数 这 些 概念 基本 没 问 题 ; 


如 果 读 者 对 “一 个 六 面 的 人 般 子 在 丢 出 后 出 现 2 点 的 概率 是 1/6” 基 本 


没 问 题 ; 


如 果 读者 对 “一 个 匀 质 的 硬币 在 扔 出 1000 次 后 ， 正 面 朝 上 和 反面 朝 
上 的 次 数 基本 各 为 500 次 ” 没 问题 ， 那 么 请 读者 放心 大 胆 地 跟随 我 们 ， 
我 们 将 用 最 令 人 放松 的 聊天 方式 开始 这 次 轻松 的 白话 数据 挖掘 与 机 器 
学 习 之 旅 。 
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数据 与 数据 应 用 中 的 许多 概念 彼此 有 着 千 丝 万 缕 的 联系 ， 同 时 也 
有 者 概念 上 的 偶 重 与 区 别 ， 这 里 先 从 数据 应 用 领域 中 的 利 见 概念 聊 
起 。 


2.1 什么 是 数据 
数据 是 什么 ? 这 几乎 成 为 一 个 人 们 熟视无睹 的 问题 。 


有 不 少 朋友 脑子 里 可 能 会 直接 冒 出 一 个 词 "数字 ” 
据 ?"， 我 相信 会 有 一 些 朋 友 斩 钉 稚 铁 地 说 。 
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一 些 朋 友 会 在 稍 作 思 考 后 回答 “数字 和 字符 、 字 母 ， 这 些 都 是 数 
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图 2-1 例 1 


1111 aa 
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不 知道 你 现在 是 不 是 正在 纠结 哪个 回答 更 正确 ， 抑 或 第 二 个 回答 
更 合理 一 些 ， 这 里 先 放 一 放 。 先 看 下 面 这 组 例子 (图 2-1) : 


这 里 有 6 个 0， 请 问 它 是 数据 吗 ? 


再 看 这 样 的 例子 (图 2-2) : 


这 里 有 4 个 1 和 2 个 a， 那 么 它 是 数据 吗 ? 


也 许 你 可 能 会 问 ,“ 这 到 底 是 什么 意思 ? NS, Xe RAE 
识 数 据 的 过 程 中 存在 的 一 个 很 要 命 的 问题 ， 几 乎 在 我 们 出 发 时 束 拦 住 
了 我 们 的 去 路 。 


我 们 回 过 头 再 想 想 刚才 的 问题 可 能 会 得 到 比较 令 目 己 和 他 人 信服 
的 回答 : “承载 了 信息 的 东西 ? 才 征 数据 ， 换 句 话 说， 不 管 是 石头 上 刻 
NE, Raed) ei BETAS HEFE, he ee RE 
fete ERS, RRC RIAL, BRAM S BT ABE 
认为 是 数据 。 而 没有 承载 信息 的 符号 束 不 是 数据 。 这 个 观点 似乎 看 上 


去 要 比 前 面 的 回答 理性 得 多 ， 也 科学 得 多 ， 但 是 这 个 观点 真 的 不 需要 
补充 了 吗 ? 


我 们 假设 这 两 个 例子 都 有 一 些 比较 特殊 的 场景 ， 假 设 第 一 组 里 出 
现 的 6 个 0 其 实 是 时 分 秒 的 简写 ，000000 表 示 00 点 00 分 00 秒 ， 而 如 果 写 
作 112349 则 表示 11 点 23 分 49 秒 ， 那 么 它 是 不 是 也 是 数据 呢 ? 假设 第 二 
组 出 现 的 4 个 1 和 2 个 a 其 实 是 一 组 密码 ，4 个 1 代表 一 个 被 约定 的 地 点 ， 
aa 代表 一 种 被 约定 的 事件 ， 那 这 组 数字 和 字母 的 意义 也 有 了 相应 的 解 
读 ， 那 么 它 是 不 是 也 是 数据 呢 ? 


不 难看 出 ， 一 些 符号 如 果 想 要 被 认定 为 数据 ， 那 就 必须 承载 一 定 
的 信息 。 而 信息 很 可 能 是 因 场景 而 定 ， 因 解读 者 的 认 知 而 定 ， 所 以 一 


些 符号 征 不 是 可 以 被 当做 数据 ， 有 相当 的 因素 是 取决 于 解读 者 的 主观 
视角 的 。 不 知道 这 个 观点 你 是 不 是 认可 ， 总 之 这 点 很 重要 。 


2.2 ”什么 古 信息 


说 到 这 里 ， 我 的 同事 娟 娟 非常 认真 且 笋 有 介 事 地 跟 我 说 : “我 觉得 
数字 、 字 母 、 图 像 ， 这 些 都 是 数据 ， 跟 信息 不 信息 的 没什么 关系 。" 看 
着 她 认真 地 跟 我 抬 枉 ， 我 觉得 蛮 好 ， 至 少 在 认识 数据 过 程 中 积极 思考 
只 有 好 处 。 


信息 一 词 ， 在 没有 学 术 背景 的 情况 下 其 实 有 着 很 多 解释 ， 例 如 ， 

广播 中 的 声音 、 互 联网 上 的 消息 、 通 信 系 统 中 传输 和 处 理 的 语音 对 

象 ， 甚 至 是 小 区 和 校园 的 消息 看 板 (图 2-3) ， 也 就 是 人 类 社会 传播 的 
一 切 内 容 。 


你 是 我 的 小 呀 
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(a) 广播 中 的 声音 


(c) 通信 系统 中 的 语音 (b) 消息 看 板 上 的 消息 


1948 年 ， 数 学 家 香农 (Claude Elwood Shannon) 在 题 为 《通信 的 
数学 理论 》 的 论文 中 指出 : “信息 是 用 来 消除 随机 不 定性 的 东西 >。 这 
句 话 如 果 举 个 例子 说 明 ， 大 概 可 以 想象 这 样 一 个 场景 (图 2-4) 。 


图 2-4 场景 1 


我 说 了 两 句 话 : “我 今年 33 岁 。”, RHEA o” 


那么 第 一 句 话 如 采 征 为 了 回 不 了 解 我 的 人 介绍 我 的 年 龄 而 可 以 算 
作 信息 ， 第 二 句 话 则 不 是 信息 。 至 少 你 会 觉得 说 了 第 一 句 以 后 ， 后 面 
这 人 句 位 直 束 是 废话 ， 因 为 从 第 一 句 话 完全 可 以 推导 出 来 。 


再 如 ， 某 一 天 巴西 足球 队 和 中 国足 球 队 进行 了 比赛 。 


结果 第 二 天 张 三 告 诉 笔者 , MEREANDE I °” 


而 后 李 四 告诉 笔者 ，“ 昨 天 中 国 队 输 了 。” 


再 而 后 王 五 告诉 笔者 ,“ 昨 天 的 比赛 不 是 平局 。” (图 2-5) 
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了 ， 李 四 说 中 国 队 输 了 ， 
王 五 说 不 是 平局 


一 


图 2-5 场景 2 


前 提 是 只 要 他 们 都 是 说 实话 的 人 ， 那 么 对 于 我 来 说 ， 也 喊 只 有 张 
三 的 话 能 算 信 息 ， 李 四 和 王 五 说 的 则 不 能 算 作 信息 。 甚 至 连 张 三 说 
的 “昨天 巴西 队 最 了 ”这 句 话 是 否 能 够 被 算 作 信息 ， 我 们 都 要 表示 怀 
疑 ， 因 为 这 也 有 点 “废话 ”的 意味 一 但 凡 对 足球 运动 有 点 认识 的 人 都 
几乎 可 以 认定 ， 即 便 你 不 告诉 我 昨天 巴西 队 顾 了， 我 也 能 猜 个 八 九 不 
离 十 ， 因 为 可 能 性 实在 是 太 大 太 大 了 ， 大 到 几乎 是 一 定 的 ， 儿 乎 是 姓 


南 置 疑 的 。 国 足 的 粉丝 们 请 放下 手中 的 臭 鸡蛋 和 烂 西红柿 ， 听 我 把 例 
子 讲 完 。 


现在 对 信息 是 什么 清晰 多 了 吧 ? 我 们 可 以 粗略 地 认为 ， 信 息 就 是 
那些 把 我 们 不 清楚 的 事情 阐明 的 插 述 ， 而 已 经 明确 或 者 知晓 的 东西 让 
我 们 再 “知晓 ”一 过 ， 这 些 被 知 会 的 内 容 束 不 再 古 信息 了 。 这 个 概念 十 
很 有 用 的 ， 我 们 后 面 在 讲 信 息 论 的 时 候 也 会 再 做 定量 的 说 明 ， 现 在 只 
做 一 个 定性 的 了 解 。 


数据 和 信息 是 我 们 在 数据 挖 所 和 机 需 学 习 领 域 天 天 要 打交道 的 基 
础 ， 也 是 我 们 人 研究 的 主要 对 象 。 所 以 对 数据 和 信息 有 一 个 比较 一 致 性 
的 认识 对 后 面 咀 们 讨论 问题 是 非常 有 好 处 的 。 


2.3 FAERIE 


算法 这 个 名 称 大 家 应 该 不 卫生 ， 如 有 果 你 是 一 个 信息 相关 专业 的 本 
科学 生 ， 至 少 在 本 科 一 年 级 或 者 二 年 级 就 接触 过 不 少 算法 了 。 随 便 打 
开 一 个 人 力 资 源 网 站 去 搜索 “算法 工程 师 ”， 好 的 算法 工程 师 的 年 薪 能 
到 三 五 十 万 甚至 上 百 万 。 


算法 是 什么 ? 算法 可 以 被 理解 为 “计算 的 方法 和 技巧 ”， 在 计算 机 
中 ， 算 法 大 多 数 指 的 束 古 一 段 或 者 几 段 程序 ， 告 诉 计算 机 用 什么 样 的 
逻辑 和 步骤 来 处 理 数据 和 计算 ， 然 后 得 到 处 理 的 结果 。 


科班 出 身 的 信息 相关 专业 的 朋友 看 到 这 里 就 会 觉得 比较 亲切 了 ， 
经 典 的 算法 有 很 多 ， 如 “ 冒 泡 排序 ”算法 ， 这 几乎 是 所 有 学 习 高 级 语言 
和 “数据 结构 ”课程 的 入 门 必 学 ， 再 如“ 八 呈 后 问题 "算法 ， 这 几乎 也 是 
在 讲 穷 举 计算 时 的 经 典 保留 算法 案例 〈 束 是 在 国际 象棋 棋盘 上 放 8 个 能 
够 横 、 坚 、 斜 无 限制 前 进 的 旦 后， 让 它们 之 间 互 相 不 能 攻击 ， 求 有 多 
少 种 解 ) ;以 及 MD5 算 法 、ZIP2 压 缩 算法 等 各 种 不 胜 枚 举 的 算法 。 
2-6 所 示 为 八 呈 后 问题 的 一 组 解 ， 经 过 穷 举 是 可 以 求 出 所 有 92 组 解 的 。 


图 2-6” 八 皇后 问题 的 一 组 解 


应 该 说 算法 是 数据 加 工 的 灵魂 。 如 采 说 数据 和 信息 是 原始 的 食 
材 ， 数 据 分 析 的 结论 是 茉 看 ， 那 么 算法 就 是 训 调 过 程 ， 如 有 果 说 数据 是 
EE, SEPA AAS MEE, 357 BEWEIS 
和 加 工 的 机 床 和 工 乞 流程 。 


算法 在 高 级 语言 发 展 了 很 多 年 之 后 ， 更 多 地 被 封闭 成 了 独立 的 画 
数 或 者 独立 的 类 ， 开 放 接 口供 人 调用 ， 然 而 算法 封 洲 得 再 好 也 是 不 能 
不 假 思索 地 使 用 殉 能 获 葡 的 东西 ， 要 知道 ， 这 些 封装 只 是 在 一 定 程 度 
上 避免 了 重复 发 明 轮 子 而 已 。 


大 家 不 要 以 为 算法 全 都 是 算法 工程 师 的 事情 ， 跟 普通 的 程序 员 或 
者 分 析 人 员 无 关 ， 算 法 说 到 展 是 对 处 理 逻 辑 理解 的 问题 。 


《孙子 兵法 .作战 篇 》 有 云 ,“ 不 尽 知 用 兵 之 害 者 ， 则 不 能 尽 知 用 
兵 之 利 ”， 和 意思 十 说 ， 不 对 用 兵 打仗 的 坏处 与 束 端 进行 充分 了 解 同 样 不 
可 能 对 用 兵 打 仗 的 好 处 有 足够 的 认识 。 算 法 的 应 用 是 一 个 辩证 的 过 
程 ， 不 仅 在 于 不 同 算法 间 的 比较 和 搭配 使 用 有 着 辩证 关系 ， 在 同一 个 
算法 中 ， 不 同 的 参数 和 靖 值 设置 同样 会 市 来 大 相 径 寿 的 结 有 末 ， 甚 至 影 
虽 数据 解读 的 科学 性 。 这 一 点 请 大 家 务必 有 所 注意 。 


2.4 RIT > EATE 


统计 、 概 率 、 数 据 挖掘 ， 这 几 个 词 经 常 伴随 出 现 ， 尤 其 是 统计 和 
概率 两 个 概念 ， 几 乎 号 像 目 然 界 的 伴生 太一 样 分 不 了 家 ， 有 很 多 出 版 
社 都 出 版 过 叫做 《概率 统计 》 的 书籍 。 


本 书 不 准备 从 学 术 的 角度 对 统计 和 概率 做 严格 的 区 分 ， 在 平时 工 
作 中 用 的 统计 大 多 为 计数 功能 ， 如 在 使 用 Excel 时 会 用 到 COUNT、 
SUM、AVERAGE 等 统计 芳 数 ;如 软件 开发 中 ， 在 用 SQL 语 言 对 数据 
库 的 某 些 字段 进行 计数 (count) 、 求 和 (sum) 、 求 平均 (avg) SEK 
数 。 而 概率 的 应 用 大 多 则 是 根据 样本 的 数量 以 及 占 比 得 到 “可 能 
性 > 和 “分 布 比例 ”等 插 述 数值 。 当 然 ， 概 率 的 用 法 远 不 止 这 些 ， 在 数据 
挖掘 中 同样 用 到 大 量 概率 相关 的 算法 ， 后 面 会 有 相当 的 篇 幅 进行 说 
明 o 


数据 挖 据 这 个 词 很 多 时 候 是 和 机 器 学 习 一 起 出 现 的 ， 现 在 网 上 对 
这 两 个 词 的 天 系 也 是 莫衷一是 。 有 的 说 数据 挖 据 包含 机 絮 学 习 ， 有 的 
说 机 絮 学 习 是 数据 挖 据 发 展 的 更 高 阶段 。 在 笔者 看 来 ， 数 据 挖 据 和 机 
亏 学 习 这 样 的 词汇 命名 应 该 是 信息 科学 目 然 进化 和 衍生 出 来 的 ， 带 有 
一 定 的 约定 俗 成 的 色彩 ， 人 们 的 看 法 见仁见智 也 在 情理 之 中 。 


我 的 观点 是 这 样 。 


首先 我 认为 没有 必要 一 定 要 给 两 个 词汇 划一 个 界限 ， 或 者 一 定 要 
对 它们 做 闫 格 的 概念 区 分 ， 因 为 区 分 的 标准 到 目前 本 束 没 有 科学 而 无 
和 争 议 的 界定 ， 议 且 能 不 能 分 清 一 个 算法 属于 数据 挖 握 的 范畴 还 是 机 天 
学 习 的 范畴 对 于 算法 本 和 映 使 用 是 没有 任何 影响 的 ， 这 两 个 词 大 家 如 果 
想 听 解释 的 话 ， 不 妨 只 从 字面 意思 去 理解 整 已 经 足够 了 。 


数据 挖 据 一 一 首先 是 有 一 定量 的 数据 作为 研究 对 象 ， 挖 据 一 一 顾 
名 思 义 ， 说 明 有 一 些 东 西 并 不 是 放 在 表面 上 一 眼 束 能 看 明日 ， 要 进行 
深度 的 研究 、 对 比 、 杜 别 等 工作 ， 最 终 从 中 找到 规律 或 知识 ,，“ 挖 
握 ” 这 个 词 用 得 很 形象 。 


机 器 学 习 一 一 先 想 想 人 类 学 习 的 目的 是 什么 ， 是 掌握 知识 ， 掌 握 
能 力 ， 和 掌握 技巧 ， 节 终 能 够 进行 比较 复杂 或 者 高 要 求 的 工作 。 那 么 类 
比 一 下 机 器 ， 我 们 让 机 絮 学 习 ， 不 管 学 习 什 么 ， 最 终 目 的 都 是 让 它 独 
立 或 至 少 半 独 立地 进行 相对 复杂 或 者 高 要 求 的 工作 。 这 里 提 到 的 机 器 
学 习 更 多 是 让 机 融 帮 助人 类 做 一 些 大 规模 的 数据 识别 、 分 拣 、 规 律 总 
结 等 人 类 做 起 来 比较 人 花 时 间 的 事情 。 但 是 请 注意 ， 与 数据 挖掘 一 起 出 
现 的 这 个 机 器 学 习 概 念 和 我 们 说 的 “人 工 状 能 ”还 古 相 有 莽 其 还， 因为 这 
里 面 对 “ 智 能 ”的 考究 程度 实在 是 太 低 了 。 


2.5 tt Arete Lage 


另 一 个 经 常 和 大 数据 一 起 出 现 的 词汇 是 商业 智能 (图 2-7) ， 也 就 
是 我 们 平时 简称 的 BI (Business Intelligence) ° 


商业 智能 一 一 业界 比较 公认 的 说 法 是 在 1996 年 最 哇 由 加 特 纳 集团 
(Gartner Group) 提出 的 一 个 商业 概念 ， 通 过 应 用 基于 事实 的 文 持 系 
统 来 辅助 商业 决策 的 制定 。 商 业 智 能 技术 提供 使 企业 迅速 分 析 数 据 的 
技术 和 方法 ， 包 括 收 集 、 管 理 和 分 析 数 据 ， 将 这 些 数据 转化 为 有 用 的 
言 轧 。 如 果 这 个 书本 式 的 概念 读 起 来 还 是 比较 费解 ， 那 么 请 看 一 个 形 
象 的 比喻 。 


公司 在 日 常 运营 过 程 中 是 需要 做 很 多 决策 的 ， 无 时 无 刻 都 存在 于 
公司 的 各 个 方面 ， 而 决策 不 管 是 股东 大 会 讨论 还 是 企业 领导 、 部 门 领 
导 直 接 发 布 行政 命令 ， 最 终 可 能 是 很 多 因素 共同 影响 做 出 的 结 采 ， 无 
论 其 来 自主 观 还 是 客观 。 


图 2-7 ”商业 智能 


这 些 决策 可 以 如 何 得 出 呢 ? 可 以 由 领导 直接 赁 经 验 决 是， 可 以 群 
策 群 力 开会 决定 ;可 以 问 询 行业 专家 ; 甚至 可 以 找 个 算 卦 先生 来 占 
下 ...... 从 概念 来 说 都 吓 属于 辅助 决策 。 而 显然 ， 我 们 都 期 望 不 论 最 终 
征 如 何 做 出 的 这 些 决 策 和 命令 ， 它 们 都 应 该 是 更 为 理性 、 科 学 、 正 确 
的 。 但 是 如 何 帮 助 他 们 做 出 更 为 理性 、 科 学 、 正 确 的 决策 呢 ? 商业 智 
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智能 软件 大 多 都 是 基于 数据 仓库 做 数据 建 模 和 分 析 ， 以 及 数据 挖掘 和 
报表 的 。 


By Din, PLA BEET} RAY > AAU DA a, He TRH 
AU Vee 2 2 DFA — TSAR seo Tf ELTE LE EK PER I el 
的 理念 其 实 不 仅仅 可 以 应 用 于 商业 ， 还 可 以 应 用 于 国防 军事 、 区 通 优 
化 、 环 境 治理 、 熏 情 分 析 、 气 象 预 测 等 。 


2.6 小结 


数据 的 认识 和 数据 的 应 用 是 大 数据 与 机 器 学 习 的 基础 ， 数 据 、 信 
尽 、 算 法 、 概 率 、 数 据 挖 气 、 商 业 养 能， 这 些 古 大 数据 最 为 核心 的 基 
础 概念 与 要 素 。 当 我 们 对 这 些 概 念 有 了 清楚 的 认识 ， 并 能 够 清楚 说 出 
这 些 概念 之 间 的 辩证 关系 时 ， 我 们 束 已 经 在 数据 大 | 的 里 面 了 ， 怎 么 
样 ， 且 不 是 很 简单 ? 下 面 束 让 我 们 一 步 一 步 地 深入 理解 这 些 概念 的 细 
节 以 及 它们 的 应 用 技巧 吧 。 


第 3 草 “排列 组 合 与 古典 概 型 


记得 我 在 上 中 学 和 上 大 学 的 时 候 ， 有 一 些 喘 边 的 同学 束 抱 怨 :“ 真 
不 知道 这 些 定 理 们 都 是 哪儿 来 的 ， 是 天 上 抒 下 来 的 还 是 哪个 数学 家 哪 
天 睡觉 做 梦 突 然 梦 见 的 "。 大 家 听 了 不 住地 发 笑 ， 有 的 同学 则 怒 俊 不 

， 插 着 嘴 点 起 头 来 (图 3-1) ° 


Sin^2(CIJ+Ce ^2(00)71 
$in(a/2=+/ ((1-COS a )/2) 
CoOs(G /2)=+V ((1«COS C1)/2) 
tan(a/2)=+/ ((1-Cos a N4 


sinarz2tan(ca/2Y/[1*tc 


C9 MEE axlna 


图 3-1 对 数学 定理 感到 疑惑 


在 我 印象 里 ， 高 中 的 时 候 当 时 其 实 有 不 少 同学 的 数学 成 绩 还 是 相 
当 不 错 的 ， 但 是 也 会 偶尔 发 发 牢 垒 , "BRTOAIVBOHDH RAN. SERT 
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大 计 ， 难 以 入 定 。 不 知道 你 身边 的 同学 朋友 里 有 没有 对 数学 又 爱 又 恨 
MA 


其 实数 学 本 喘 本 不 应 是 高 高 在 上 的 学 科 ， 它 来 源 于 人 类 的 生产 生 
活 ， 也 扎根 于 人 类 的 生产 生活 ， 它 本 喘 无 处 不 在 ， 只 是 我 们 早已 习惯 
了 它 以 孤傲 的 验 孔 出 现在 书本 上 ， 才 让 我 们 感到 格外 地 卫生 和 臣 远 。 
我 们 有 没有 父 试 着 重新 用 更 平和 和 更 朴实 的 目光 再 一 次 认识 一 下 这 些 
和 我 们 本 应 水 乳 交融 的 平民 数学 ? 我 们 需要 平民 化 的 数学 应 用 ， 需 要 
用 更 为 平民 化 的 语言 把 简洁 生肖 的 公式 定理 表述 得 更 加 接地 气 。 


3.1 排列 组 合 的 概念 


3.1.1 公平 的 决断 一 一 扔 人 硬币 


排列 组 合 是 本 书 介绍 的 第 一 个 概率 论 概 念 ， 也 是 在 高 中 学 过 的 一 
个 概率 学 的 入 门 概 念 。 概 念 记 不 清 了 也 不 要 暴 ， 现 在 回忆 一 下 在 中 学 
学 过 的 排列 组 合 都 有 哪些 经 典 问 题 来 着 。 


首先 是 扔 硬币 (图 3-2) 。 


硬币 倒 下 继续 睡 ， 
坚 起 来 就 起 床 . . . 


图 3-2 ”排列 组 合 的 经 典 场 景 一 一 扔 硬币 ( 见 彩 插 ) 


AR — 1-5) Ja YE ——§$ te h E Te EA Te LE — 
半 可 能 性 的 硬币 ， 我 们 连 扔 3 次 ， 产 生 3 次 朝 上 的 可 能 性 有 多 大 ? 


这 个 计算 应 该 不 算 难 ， 首 移 每 一 次 扔 出 ， 每 一 个 面 的 可 能 性 是 一 
样 的 ， 即 正面 1/2 的 可 能 性 ， 反 面 也 是 1/2 的 可 能 性 。 


那么 第 一 次 扔 ， 正 面 朝 上 有 是 1/2 的 可 能 性 ， 反 面 间 上 也 是 1/2 的 可 
BET ° 


在 第 一 次 正面 朝 上 的 情况 下 ， 第 二 次 扔 ,正面 朝 上 的 可 能 性 仍然 
是 12， 反 面 朝 上 也 是 1/2 的 可 能 性 。 (GHEE, ER °) 


而 在 第 一 次 反面 朝 上 的 情况 下 ， 第 二 次 护 ， 正 面 朝 上 的 可 能 性 仍 
然 是 2， 反面 朝 上 也 是 /2 的 可 能 性 。 GIRE, ER) 


CREWE, MRAR EE” ` “ER” ` “RE” `R 
反 ?” 的 可 能 性 都 是 完全 一 样 的 ， 各 是 1/4。 


以 此 类 推 ， 连 扔 3 次 ，3 次 都 是 正面 朝 上 的 可 能 性 应 该 为 18， 即 概 
率 为 1/8 或 12.5%。 也 就 是 说 ，3 次 朝 上 分 别 为 “ 正 正 正 ”\“ 正 正 
BEUSSIAEUSSIEARRUVeUNRIESSSNOIEAS Ipse 
反 ”。 这 几 种 的 可 能 性 是 一 样 大 的 《图 3-3) 。 


图 3-3 IEC EA a RETE 


我 们 可 以 想 想 在 生活 中 的 例子 ， 扔 硬币 和 扔 角子 很 多 时 候 部 作为 
大 家 和 任 运 气 讲 公 平 的 一 种 裁决 手段 ， 如 两 个 人 打赌 财 单 双 数 或 者 天 小 
数 ，4 个 人 打 厅 将 决定 抓 牌位 置 ， 我 们 都 会 借助 硬币 或 者 仍 子 这 样 的 几 
率 产 生 均 等 的 工具 来 将 公平 进行 到 奈 ， 当 然 那 些 手 法 出 众 或 者 出 老 干 
的 情况 除外 。 


在 影视 作品 里 曾 看 到 过 一 些 赌 徒 为 了 让 目 己 殷 散 子 拨 出 6 点 的 概率 
增加 而 在 6 点 的 正 对 面 放 和 置 铅 弹 一 类 的 重 物 ， 使 得 角子 的 6 个 面 中 6 点 被 


SC LRA FALL (3-4) 。 而 一 旦 被 人 识破 ， 该 财 徒 则 会 
被 其 他 财 徒 贤 打 甚至 是 杀害 。 显 然 ， 在 事先 得 知 肌 子 被 做 了 如 此 手脚 
之 后 ， 是 不 会 再 有 兴趣 和 该 财 徒 博弈 的 ， 因 为 掌握 这 种 严重 不 对 称 信 
息 的 人 会 成 为 不 败 的 赢家 ， 因 为 这 种 机 会 的 均等 性 被 破坏 了 ， 造 成 极 
大 的 “不 公平 ”。 
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图 3-4 “ASE RE 


如 果 一 个 随机 试验 所 包含 的 单位 事件 SUAE VERSUCH I4) 
为 “ 正 正 正 *”、“ 正 正 反 ”..…….. 这 其 中 每 一 种 情况 都 是 单位 事件 ) 是 有 限 
的 ， 且 每 个 单位 事件 发 生 的 可 能 性 均 相 等 ， 则 这 个 随机 试验 叫做 拉 普 
拉 斯 试验 ， 这 种 条 件 下 的 概率 模型 束 叫 古典 概 型 。 上 古典 概 型 也 叫 传统 
概率 ， 该 定义 是 由 法 国 著名 数学 家 拉 普 拉 斯 (Laplace) 提出 的 。 


这 种 使 用 穷 举 有 限 多 个 可 能 性 ， 并 且 根 据 可 能 性 在 所 有 事件 中 所 
占 比例 求 出 可 能 性 的 问题 ， 束 可 以 使 用 排列 组 合 的 方式 来 进行 计算 。 


3.1.2” 非 古典 概 型 


上 述 “ 证 典 概 型 ”的 特点 是 “包含 的 单位 事件 是 有 限 的 ， 且 每 个 单位 
事件 发 生 的 可 能 性 均 相 等 ”。 和 单位 事件 指 的 丈 是 抛 出 一 个 “ 正 正 正 ?或 
者 “ 正 正 有 反 ” 这 种 一 个 确定 的 试验 结果 的 事件 。 可 能 性 均等 束 是 “ 正 正 
正 ”、“ 正 正 反 ”.….. 一 共 8 种 情况 ， 每 种 情况 产生 的 机 会 是 一 样 的 。 


那么 是 不 是 也 有 不 符合 古典 概 型 的 反例 呢 ? 也 吏 是 说 “包含 的 单位 
事件 不 是 有 限 的 或 每 个 单位 事件 发 生 的 可 能 性 不 均等 ? 则 不 算是 古典 概 
型 ， 有 这 样 的 例子 吗 ? 


有 的 。 首 先 ， 刚 刚 提 到 的 赌 徒 改 造 能 子 的 例子 驶 是 “每 个 单位 事件 
发 生 的 可 能 性 不 均等 ”的 例子 ， 那 么 这 种 情况 下 就 不 能 使 用 穷 举 、 排 列 
组 合 的 方法 进行 计算 ， 算 出 来 也 和 试验 结果 不 一 致 ， 再 者 ， 还 是 使 用 
仍 子 掷 数 的 例子 ， 用 两 个 蜗 子 来 掷 。 因 为 每 个 般 子 的 掷 出 范围 为 1~6 
个 点 ， 所 以 两 个 朋 子 扔 出 的 范围 是 2~12 个 点 。 但 是 需要 注意 ， 虽 然 般 
子 掷 出 每 个 点 的 机 会 是 一 样 的 ， 但 是 2~12 这 11 个 点 产生 的 可 能 性 不 是 
一 样 的 。 两 个 般 子 都 扔 出 1 才 产 生 2， 所 以 概率 为 136， 同 理 12 的 概率 
也 是 1/36。 但 是 6 就 不 一 样 了 ， 两 个 角 子 的 点 数 可 以 为 和 5、2 和 4、3 
和 3、4 和 2、5 和 1， 每 种 情况 的 概率 都 是 /36， 相 加 得 5/36。 所 以 对 于 
两 个 般 子 扔 出 2~12 个 点 ， 每 个 点 产生 的 概率 可 就 不 一 样 了 ， 那 每 个 点 


的 概率 必然 不 能 是 11。 好 在 产生 2~12 这 11 个 点 的 每 种 情况 中 ， 各 自 
是 由 两 个 古典 概 型 组 成 的 ， 还 能 分 解 以 后 各 自 求 解 (图 3-5) 。 


1— 6 上 jE 8(J(3 105303 

2 回回 GO) Be 

3:00 Ge) (C363 8363 

CO FIC 1 63 

Qe) CIC) (3[J 

QG 7283 9083 283963 

CJ) CJ} Ie 

sMO CJC} CIE 

SS tha est 我 们 有 多 人 少 
Oe BO 种 排列 方式 


图 3-5 PANTER A AB 


而 “包含 的 单位 事件 不 是 有 限 的 ”这 种 例子 其 实 也 很 多 ， 例 如 ， 我 
想 知 道 我 每 天 出 门 磁 到 熟人 的 概率 。 这 种 问题 用 古典 概 型 也 是 不 能 解 
决 的 ， 所 有 单位 事件 的 定义 非常 复 洒 ， 每 个 单位 事件 也 不 能 通过 类 似 
DIA TIX ZA te) AS ee, CARTE ^ HS RAT 
况 ， 当 然 古 没有 办 法 用 古典 概 型 来 获 解 的 。 


3.2 ”排列 组 合 的 应 用 示例 


3.2.1 WHERE 


双色 球 彩 票 在 中 国 的 历史 不 算 短 了 ， 大 概 是 从 2003 年 2 月 就 开始 在 
中 国联 网 发 售 。 虽 然 有 很 多 人 都 在 诉 病 说 双色 球 开 奖 的 方式 不 够 公平 
透明 ， 但 是 还 有 相当 多 的 彩民 一 直 在 执着 地 研究 双色 球 开奖 的 规律 
(图 3-6) ° 


图 3-6 WEER 


这 里 只 从 数学 的 角度 来 看 一 下 双色 球 彩票 的 头 次 和 你 花 两 块 钱 下 
注 购买 的 彩票 一 致 性 的 概率 ， 也 就 是 人 们 平时 说 的 买 一 注 然后 束 能 
头 奖 的 概率 有 多 大 。 这 里 必须 先 明 确 一 个 前 提 ， 号 是 确实 没有 人 对 彩 
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完全 不 知道 开奖 结果 的 情况 下 天 的 ， 抽 交 也 是 在 每 个 球 被 抽出 的 概率 
一 样 的 情况 下 进行 的 。 


我 们 购买 一 注 彩 票 的 时 候 ， 首 先 选 择 红 球 ， 从 01~33 共 33 个 号 码 
中 选择 6 个 号 码 。 再 选择 蓝 球 ， 从 01~16 共 16 个 号 码 中 选择 1 个 号 码 。6 


红 1 蓝 一 共 7 个 号 码 组 成 完整 的 一 注 彩 票 。 


最 终 抽 奖 的 时 候 也 会 是 从 01~33 共 33 个 红色 号 码 中 选择 6 个 号 码 ， 
再 从 01~16 共 16 个 蓝 色 号 码 中 选择 1 个 号 码 。6 红 1 蓝 一 共 7 个 号 码 组 成 
完整 的 一 注 头 奖 彩 票 。 


如 果 选 择 的 6 红 1 蓝 和 头 奖 的 6 红 1 蓝 完全 一 致 那 就 算 中 了 头 奖 ， 奖 
金 怎 么 算 .…. 这 个 大 家 去 问 福 利 彩 票 中 心 吧 ， 咱 们 这 里 只 算 概 率 。 


先 算 算 挑选 6 红 1 蓝 一 共有 多 少 种 挑 法 。 
首先 先 从 33 个 红 球 中 挑选 6 个 红 球 ， 用 组 合 的 方式 计算 C; : 
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也 就 是 1107568 种 选 法 。 


再 从 16 个 蓝 色 球 中 选 1 个 ， 一 共有 16 种 选 法 。 


这 样 6 红 1 蓝 的 选 法 一 共有 1107568x16=17721088 种 。 


举 个 形象 点 的 例子 ， 老 天 和 分 在 想 1 到 17721088 中 的 一 个 整数 ， 你 也 
在 想 1 到 17721088 中 的 一 个 整数 ， 你 们 俩 想 的 完全 一 样 的 概率 有 多 大 ? 
没 错 ， 是 1/117721088， 大 约 是 0.0000000564% 的 概率 。 


不 少 人 说 ， 这 没关系 ， 反 正 有 一 些 破解 方法 。 有 哪些 破解 方法 ? 
文 持 以 下 两 种 方法 的 人 比较 多 。 


方法 一 : 多 买 几 种 组 合 。 


那 束 算 莹 看 ， 一 共 17721088 种 可 能 ， 全 部 买 下 来 一 一 也 就 是 俗称 
的 全 餐 彩 票 ， 一 共 要 人 花 35442176 元 人 民 币 。 奖 池 是 不 是 在 所 有 中 头 奖 
的 人 和 平分 后 还 能 至 少 分 到 手 这 么 多 不 好 说 〈 加 上 二 等 次、 三 等 奖 一 共 
能 领 到 多 少 钱 都 可 以 目 己 算 ) 。 按 照 比 例 缩小 一 些 试 试 呢 ?比如 买 一 
半 ， 那 就 是 中 奖 概率 变 成 2 一 一 要 化 17721088 元 ， 还 有 一 半 的 可 能 性 
是 不 中 。 其 他 比例 读者 可 以 自己 计算 。 每 一 种 比例 在 降低 投入 的 同 
时 ， 也 在 降低 中 奖 概率 。 所 以 这 种 方式 并 没有 提高 买 彩票 的 投入 产 出 
比 。 


方法 二 : ”只 买 一 种 组 合 ， 坚 持 到 底 ， 就 能 提高 胜率 。 


有 这 样 轧 想 的 朋友 倍 计 是 这 么 一 个 思路 ， 束 是 这 一 次 这 种 组 合 不 
中 ， 由 于 每 种 组 合 概率 一 样 ， 所 以 在 多 次 随机 过 程 里 前 面 出 现 过 的 组 
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有 这 样 思路 的 朋友 ， 想 想 这 样 一 个 事情 ， 区 通 事故 其 实 征 一 个 典型 的 
随机 事件 ， 平 均 每 个 月 发 生 交通 事故 的 数量 是 相对 “固定 ”的 ， 只 是 发 
生 的 地 点 、 发 生 的 时 间 、 发 生 的 车 型 、 涉 及 的 人 可 能 不 同 而 已 。 


那么 如 果 要 避 人 免 交 通 事故 ， 束 要 先 人 为 制造 一 些 无 害 的 交通 事 
故 ， 造 够 了 次 数 ， 这 个 月 吏 不 会 再 发 生 区 通 事故 了 ， 大 家 也 可 以 安心 
上 路 了 。 这 个 逻辑 束 变 得 顺 理 成 草 ， 但 是 事实 真 的 会 是 这 样 吗 ? 


这 种 随机 产生 的 每 一 次 结果 之 间 其 实 是 独立 的 概率 ， 换 名 话说 每 
一 次 结果 十 不 会 影响 前 后 随机 事件 里 产生 的 结 采 的 ， 也 不 会 影响 到 前 
后 的 随机 事件 的 结 末 。 在 静态 概 型 里 ， 这 个 结论 请 大 家 牢记 。 也 有 人 
表示 人 怀疑， 说 我 明明 在 一 些 事情 里 看 到 前 一 件 事 发 生 后 会 影响 后 面 事 
件 发 生 的 可 能 性 ， 那 这 种 事情 怎么 解释 。 这 种 事情 ， 首 和 允 不 是 古典 概 
型 的 范畴 ， 如 有 条 要 归 类 的 话 可 以 算 作 条 件 概率 的 研究 范 明 ， 条 件 概率 
在 后 文 会 详细 讲解 。 


3.2.2 购车 播 号 


北京 是 一 个 以 拥 墙 著称 的 城市 ， 拥 墙 的 问题 也 是 由 来 已 信 ， 而 且 
几乎 是 越 来 越 挛 重 。 在 万 般 无 茶 的 情况 下 ， 专 家 们 最 后 祭 出 了 一 个 大 


招 一 一 播 号 。 


cu 
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每 个 已 经 具备 摇号 资格 的 人 登记 一 下 身份 证 号 码 ， 所 有 登记 过 身份 证 
号 码 的 人 都 放 在 一 个 大 “池子 ”里 ， 然 后 每 两 个 月 通过 “随机 ”的 方式 产 
生 20000 个 号 码 ， 这 20000 个 幸运 儿 就 是 中 签 者 ， 束 拥有 了 购买 一 辆 汽 
油 动力 汽车 的 配额 (图 3-7) 。 


图 3-7 ”汽车 摇号 


中 签 概率 多 大 呢 ? 有 人 想到 直接 用 20000 除 以 1420000 就 是 自己 中 
签 的 概率 。 但 是 为 什么 是 这 么 算 呢 ?有 理论 依据 吗 ? 下 面试 着 推导 一 
下 。 


以 真实 数据 为 例 ，2015 年 9 月 这 个 “池子 ”里 大 约 有 1420000 个 号 ， 
从 里 面 选 出 20000 个 号 ， 一 个 人 中 签 的 概率 有 多 大 ? 稍微 想 想 看 ， 这 个 
数值 也 不 会 是 C i000 ， 因 为 不 是 要 求 1420000 个 号 里 找 出 20000 个 号 一 
组 的 不 同 组 合 。 


在 没有 其 他 政策 进行 干预 而 将 1420000 个 号 码 进 行 等 概率 选 出 的 情 
况 下 ， 选 出 20000 个 号 ， 而 自己 的 号 正好 在 其 中 。 相 当 于 用 一 个 
1420000 面 的 盘子 投掷 一 次 选 出 一 个 号 ， 然 后 把 这 个 号 抹 掉 ， 再 用 剩余 
的 1419999 个 号 做 成 一 个 1419999 面 的 仍 子 ， 再 投 拓 一 次 ， 选 出 一 个 
号 ， 然 后 把 这 个 号 再 抹 掉 .……. -次 一 次 下 去 ， 直 到 20000 次 为 止 。 实 际 
相当 于 这 么 一 个 过 程 。 


想 不 清 梦 的 话 试 试用 小 一 点 的 数字 找 找 感觉 。 


如 采 是 有 3 个 人 参与 播 号 ， 播 出 2 个 ， 征 怎么 计算 呢 ? 
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T) 。 第 一 次 我 被 花子 选中 的 概率 为 13， 还 有 2/3 是 没 被 选中 的 概 
率 。 在 没 选中 的 情况 下 ， 换 2 个 面 的 般 了 于 ， 这 一 次 我 被 从 子 选中 的 概率 
为 /2。 


算 算 我 能 被 选中 的 概率 一 共 是 多 少 吧 ， 


如 条 是 6 个 人 参与 播 导 ， 播 出 3 个 ， 是 怎么 计算 呢 ? 
TRAPP ATS, DER: 


第 一 次 ， 选 中 的 概率 为 16， 没 选中 的 概率 为 5/6， 现 在 该 换 5 面 的 
Belge 


第 二 次 ， 选 中 的 概率 为 115， 没 选中 的 概率 为 45， 现 在 该 换 4 面 的 
pet f° 


第 三 次 ， 选 中 的 概率 为 14， 没 选中 的 概率 为 4， 结 束 。 


被 选中 的 概率 是 多 少 昵 ? 


如 果 有 兴趣 可 以 继续 用 其 他 例子 去 算 ， 我 们 现在 直接 说 结论 了 ， 
这 种 情况 其 实 束 是 用 毛 骨 子 的 次 数 除 以 最 开始 角子 的 总 面 数 ， 也 就 十 
一 共 选 出 的 次 数 除 以 全 样本 空间 的 大 小 。20000/1420000 这 个 答案 是 没 
有 问题 的 ， 也 就 是 中 签 率 为 1.4% 左 右 ， 一 年 摇号 6 次 的 话 ， 估 计 运 气 
最 差 的 人 要 11.8 年 才能 抽 中 ， 听 到 这 样 的 消息 现在 整个 人 都 不 好 了 。 
不 过 别 筷 了 ， 每 个 月 这 个 “池子 ”还 在 变 大 ， 冤 竟 等 多 人 久 可 能 只 有 老 天 


知道 了 。 我 们 这 里 只 从 理论 上 讲解 了 计算 的 原理 ， 但 是 和 实际 的 计算 
方法 还 是 有 区 别 的 ， 毕 竞 实 际 的 入 选 规则 也 是 在 不 断 变 化 ， 例 如 对 长 
时 间 未 选中 的 号 码 加 六 选 权 重 ， 这 样 计算 起 来 更 为 复 洒 一 些 。 


3.2.3 ”德州 扑克 


七 零 后 和 八 零 后 的 朋友 估计 对 香港 影星 周润发 很 熟悉 ， 尤 其 是 
哥 在 《财神 》 系 列 中 风流 催 们 的 表演 给 人 留 下 很 深 的 印象 ， 其 中 最 后 
发 哥 和 大 BOSS 单 挑 基 本 玩 的 都 是 “梭哈 ”一 一 英文 名 称 Show Hand ° $ 
哈 和 我 们 今天 要 说 的 德州 扑克 在 牌 点 大 小 比较 的 规则 上 是 非常 近似 
Hy ° 


Mp 
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Hold'em Poker， 中 文人 简称 德州 扑 元 。 这 里 人 研究 一 下 各 种 牌 型 出 现 的 概 


对 于 不 熟悉 德州 扑 元 规则 的 读者 来 说 ， 还 是 有 必要 移 简单 描述 一 
下 德州 扑 殉 的 规则 。 


一 张 人 台面 至 少 2 人 ， 最 多 22 人 ， 一般 是 由 2~10 人 参加 。 德 州 扑 殉 
一 共有 52 张 脾 ， 没 有 王牌 。 每 个 玩家 分 2 张 牌 作为 “ 压 牌 "，5 张 由 荷 官 
(专业 发 牌 的 人 ) 陆续 朝 上 发 出 的 公共 牌 。 开 始 的 时 候 ， 每 个 玩家 会 
有 2 张 面 朝 下 的 确 牌 。 经 过 所 有 押 注 圈 后 ， 寿 仍 不 能 分 出 胜 负 ， 游 戏 会 
进入 “摊牌 阶段， 也 束 是 让 所 剩 的 玩家 亮 出 各 目的 底牌 以 较 遍 下 ， 持 
大 有 牌 者 获胜 。 


Fe ete BUR A BEAR T BCLS RRA TOL PINE © 


ete Se RAGS TH COKER, DRS EB AE 
的 情况 下 加 注 。 


第 三 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底牌 ， 以 及 桌面 上 4 张 公共 牌 
的 情况 下 加 注 。 


第 四 轮 是 在 每 位 玩家 能 看 到 自己 2 张 底 牌 ， 以 及 桌面 上 5 张 公 共有 牌 
的 情况 下 加 注 。 


最 多 只 会 经 历 这 4 轮 ， 一 局 游戏 结束 。 


游戏 的 输 启 吏 定 看 玩家 目 己 的 2 张 帮 牌 与 梨 面 上 当前 已 开 出 的 公共 
牌 ， 一 共 挑 选 出 5 张 ， 组 成 最 “天 ”的 牌 ， 哪 位 玩家 的 牌 组 合 最 “大 ”， 哪 
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牌 的 组 合 大 小 怎么 定义 呢 ? 


对 博弈 类 族 戏 有 所 了 解 的 读者 可 能 会 有 一 些 常 识 性 的 体会 一 一 组 
合 出 现 的 可 能 性 越 小 的 通 闻 牌 越 “ 大 ”。 那 德州 扑 元 里 都 有 哪些 组 合 
We? 


第 一 等 ， 同 花 大 顺 。 相 同 花 色 的 A、K、Q、J、10 (图 3-8) 。 
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9、10， 黑 桃 9)、10、J、Q、K 等 (图 3-9) 。 


图 3-8 同 花 大 顺 
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第 三 等 : 四 条 。4 张 相同 点 数 的 牌 。 例 如 ，4 张 8，4 张 Q 等 (图 3- 
10) 。 


第 四 等 ;满堂 红 〈 也 叫苦 芦 》 。3 张 相同 点 数 的 牌 ， 再 加 2 张 相 同 
点 数 的 牌 。 例 如 ，3 张 5 和 2 张 9，3 张 K 和 2 张 10 等 (图 3-11) ° 


图 3-10 ”四 条 


图 3-11 满堂 红 


第 五 等 : 同化 。5 张 相同 花色 的 牌 ， 但 不 是 同花顺 。 例 如 ，5 张 牌 
都 是 方块 ，5 张 牌 都 是 梅花 等 (图 3-12) ° 


第 六 等 : 顺 子 。5 张 点 数 相连 的 牌 ， 但 至 少 包 含 两 种 花色 。 例 如 ， 
方块 2、 方 块 3、 梅 花 4、 红 桃 5、 红 桃 6S， 红 桃 8、 方 块 9、 梅 花 10、 红 桃 
J]、 黑 桃 Q 等 (图 3-13) 。 


= 


=> 


图 3-12 HJ 
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第 七 等 : 三 条 。3 张 相同 点 数 的 牌 ， 再 加 2 张 不 同 点 数 的 牌 。 例 
如 ，3 张 9 和 1 张 3、1 张 K，3 张 Q 和 1 张 A，1 张 6 等 (图 3-14) 。 


第 八 等 : 两 对 。?2 张 相同 点 数 的 牌 作 为 一 对 ， 两 对 牌 ， 再 加 1 张 单 
牌 。 例 如 ，2 张 5、2 张 9、1 张 A，2? 张 10、2? 张 J、1 张 K 等 (图 3-15) 。 


图 3-14 三 条 


图 3-15 ”两 对 


BILE: 一 对 。2 张 相同 点 数 的 牌 作为 一 对 ， 一 对 牌 ， 再 加 3 张 单 
牌 。 例 如 ，2 张 10、1 张 7、1 张 8、1 张 9，2 张 A、1 张 K、1 张 9、1 张 5 等 
(图 3-16) 。 


3-16 一 对 


第 十 等 : 高 牌 。 高 牌 即 单 牌 ， 不 满足 前 面 九 等 牌 中 任何 一 种 的 ， 
束 只 能 按照 点 数 大 小 按 顺 序 决定 高 低 了 。A 比 K 大 ，K 比 Q 大 ， 以 此 类 


推 ， 2 最 小 。 


这 里 试 求 一 下 ， 一 个 人 自己 摸 牌 (没有 任何 第 二 个 玩家 参与 的 情 
况 下 ) ， 前 三 等 牌 被 摸 到 的 概率 有 多 大 。 

请 注意 ， 在 没有 开始 摸 牌 之 前 ， 如 果 牌 被 洗 过 若干 次 “没有 其 他 
人 为 干扰 因素 ) ， 牌 的 发 放 是 随机 的 。 而 一 旦 底牌 发 放 以 后 ， 尤 其 是 


玩家 目 己 看 过 牌 以 后 ， 这 个 时 候 的 概率 计算 和 现在 要 讨论 的 这 种 概率 
计算 是 不 一 样 的 一 一 显然 ， 一 个 是 完全 随机 的 ， 一 个 是 有 一 定 条 件 
的 ， 条 件 就 是 刚刚 看 到 的 那 两 张 撒 牌 ， 而 这 种 情况 暂时 不 讨论 。 


那么 这 种 情况 下 ， 整 个 选 牌 的 过 程 相当 于 从 整 副 牌 52 张 中 选 出 7 
张 ， 并 从 中 组 合 出 最 大 牌 的 过 程 ， 即 


— 
Cl. .32x51x50x49x48x47x46 _ 1, 784 560 


一 7x6x5x4x3x2xl 


7 张 牌 的 组 合 一 共有 133784560 种 。 
1. 同 花 大 顺 


在 所 有 的 组 合 中 有 多 少 是 同 花 大 顺 的 呢 ? 同 花 大 顺 一 共 4 种 ， 分 别 
是 墨 桃 、 红 桃 、 梅 花 、 方 块 的 10、J、 Q、K、A。7 张 牌 里 面 ，5 张 已 
经 确定 ， 男 外 2 张 怎么 选 都 无 所 谓 。 以 黑 桃 为 例 ， 黑 桃 的 同 花 大 顺 选 出 
后 ， 其 实 还 有 47 张 牌 没有 发 ， 挑 出 2 张 ， 即 

, 47x46 


47 Ix] 


=1 081 


同 理 ， 红 桃 、 梅 伦 、 方 块 的 同 伦 大 顺 也 是 一 样 的 ， 都 是 1081 种 组 
合 ， 即 同 花 大 顺 共计 有 4324 种 组 合 。 因 此 概率 是 


4 324 


59 04003 23% 
133 784 560 


N 


.同花顺 


同花顺 有 多 少 种 情况 呢 ? 以 黑 桃 为 例 ， 假 设 A~5 组 成 同花顺 ， 黑 
桃 6 是 不 能 发 的 ， 还 剩 下 46 张 可 以 组 合 ， 则 这 种 情况 下 组 合 数量 为 
» _ 46x45 


-— —1 035 
" yj 


2~6 组 成 同花顺 ，7 是 不 能 发 的 ，A 可 以 发 AREE) ， 所 以 还 


是 
C2 ex] 035 

以 此 类 推 ， 黑 桃 的 组 合 为 A~5，2~6，.….……， 9~K， 一 共 9 种 ， 那 
么 黑 桃 一 种 花色 的 牌 型 种 类 就 为 

1035x9=9315 

4 种 花色 的 组 合 数 就 是 

9315x4=37260 

得 到 结果 概率 为 


37 260 
133 784 560 


网 上 还 有 一 种 算法 : 


~ 0.027 9% 


38 916 
133 784 560 


这 种 算法 是 有 问题 的 。 错 误 发 生 的 地 方 大 概 在 这 里 : “以 黑 桃 为 


~ 0.029 1% 


例 ，A~5，2~6，.……，9~K， 一 共 9 种 ，47 张 牌 里 挑 出 两 张 ， 计 算 : 
» 47x46 
17 二 一 一 一 二 1] 081 
47 2x] 


那么 黑 桃 的 同花顺 的 牌 型 种 数 为 
1081x9=9729 


同 理 ， 红 桃 、 梅 花 、 方 块 的 同花顺 都 有 9729 种 组 合 ， 共 计 38916 种 
组 合 ， 得 到 结 采 


38 916 


— B = 0.029 1% 
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这 里 一 旦 选 好 了 5 张 牌 作为 “核心 组 合 " 以 后 ， 其 他 牌 的 选择 其 实 不 
征 目 由 的 ， 因 为 有 的 牌 配 进来 以 后 吏 发 现 这 个 一 开始 束 认 定 的 组 合 不 
征 最 后 在 人 台面 上 最 大 的 牌 。 


3. 四 条 
四 条 有 多 少 种 呢 ， 计 算 方 法 类 同 ，4 张 已 经 确定 ， 还 有 48 张 没有 
发 : 


_ 48x47 x 46 


C = =17 296 


3x2xl 


注意 这 里 4 张 的 组 合 有 多 少 种 一 一 13 种 ， 所 以 四 条 可 能 出 现 的 组 合 


17296x13=224848 


除 一 下 得 到 绪 采 


224 848 — , 
二 
133 784 560 


虽然 看 上 去 机 会 仍然 很 渺茫 ， 但 是 比 同 花 大 顺和 同花顺 的 概率 还 
是 大 了 不 少 ， 是 不 是 ? 


其 他 的 组 合 方式 大 家 有 兴趣 可 以 目 己 慢 慢 去 算 ， 网 上 也 有 现成 算 
好 的 对 照 表 。 


提示 一 下 ， 两 对 有 牌 这 种 情况 比较 难 算 ， 因 为 情况 比较 复杂 。 它 复 
杂 的 地 方 在 于 在 满足 两 对 牌 的 情况 下 ， 还 要 将 满足 同 花 大 顺 、 同 花 
顺 、 四 条 、 满 堂 红 、 同 花 、 顺 子 、 三 条 的 情况 全 部 剔除 才 行 。 两 对 有 牌 
的 牌 型 为 31433400 种 ， 概 率 为 23.59%6。 还 有 一 些 其 他 形式 的 对 照 表 ， 
就 是 在 手 里 底牌 为 已 知 固定 组 合 的 情况 下 ， 最 终 与 公共 牌 组 合成 为 各 
等 牌 的 概率 。 这 里 温馨 提 醒 一 下 各 位 牌 友 ， 刚 刚 我 们 计算 的 概率 是 在 
一 个 人 自己 摸 牌 的 情况 下 产生 的 概率 。 一 旦 是 5 个 人 、10 个 人 玩 的 时 候 


忠 大 不 相同 了 。 有 一 点 十 确定 的 ， 人 越 多 ， 公 共有 牌 和 其 他 玩家 一 起 组 
成 的 牌 的 种 类 可 能 性 也 越 多 , “罕见 组 合 " 在 一 局 中 出 现 的 可 能 性 也 比 
一 个 人 目 己 换 牌 要 高 很 多 ， 请 一 定 注意 哦 。 
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排列 组 合 以 及 利用 排列 组 合计 算 的 古典 概 型 在 生产 生活 中 可 以 解 
决 很 多 问题 。 刚 刚 这 些 例子 我 们 已 经 看 到 了 不 少 用 法 和 技巧 。 


在 这 里 有 儿 个 概念 可 能 会 外 误 读 ， 我 们 需要 在 这 里 滋 清 一 下 。 


最 容易 发 生 的 误解 是 ， 殷 硬币 的 时 候 ， 如 果 前 3 次 出 现 “ 正 *， 那 第 
4 次 出 现 “ 反 ”的 概率 就 增 大 。 


这 里 面 的 误解 我 认为 有 两 个 层面 。 


误解 1: 对 “概率 ”一 词 本 身 的 理解 有 偏差 。 


“概率 ”一 词 的 汉语 舍 义 是 几率、 可 能 性 、 可 能 程度 。 我 们 通常 会 
以 我 们 目 己 腾 想 的 方式 去 猜测 某 件 事情 的 可 能 性 比较 高 或 者 比较 低 ， 
这 会 导致 我 们 对 概率 大 小 理解 的 偏差 。 


在 使 用 排列 组 合 与 古典 概 型 的 方法 时 ， 有 一 个 大 原则 区 ® 是 这 些 概 
率 实际 上 是 通过 统计 计算 出 来 的 ， 请 注意 ， 由 统计 得 出 概率 是 人 们 得 
到 概率 最 原始 的 方法 ， 包 括 后 面 将 要 介绍 的 条 件 概率 也 十 一 样 的 道 
理 。 也 区 是 说 ， 硬 币 扔 出 正面 和 反面 各 50% 的 概率 是 多 少 ， 这 不 是 因 
为 硬币 本 喘 有 两 个 面 ， 而 是 通过 多 次 扔 硬币 ， 然 后 用 得 到 正面 的 次 数 
除 以 总 数 得 到 扔 出 正面 的 概率 一 一 这 个 才 是 定义 。 而 如 果 人 硬币 本 号 不 
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重 ， 反 面 较 轻 ， 很 有 可 能 导致 扔 出 正面 的 概率 为 60%， 反 面 的 概率 为 
40% 的 情况 〈 抑 或 其 他 比例 ) 。 请 注意 ， 这 个 结论 同样 是 通过 多 次 扔 
硬币 得 出 来 的 ， 例 如 扔 1000 次 ， 发 现 有 600 次 是 正面 ，400 次 是 反面 。 
这 时 再 计算 扔 3 次 硬币 会 产生 3 个 正面 的 概率 就 不 是 3 个 2 相 乘 了 ， 而 
是 3 个 0.6 相 乘 了 。 


既然 如 此 ， 概 率 本 身 的 解释 就 是 对 于 大 量 样本 分 布 比例 的 解释 ， 
而 不 是 对 单 次 事件 的 可 能 性 的 解释 。 我 们 说 扔 硬币 产生 正面 概率 
50%， 有 反面 概率 50%， 其 实 是 在 说 护 1000 次 硬币 ， 理 论 上 会 有 500 次 产 
生 正 面 ，500 次 产生 反面 ; 扔 10000 次 硬币 ， 理 论 上 会 有 5000 次 产生 正 
面 ，5000 次 产生 反面 。 这 才 是 概率 本 身 的 含义 ， 而 对 于 单 次 扔 硬币 的 
解释 没有 意义 。 


误解 2:， 事件 之 间 的 独立 性 。 


扔 出 一 次 硬币 ， 得 到 正面 ， 下 一 次 重新 再 扔 ， 那 么 这 一 次 扔 硬币 
和 上 一 次 扔 硬币 有 关系 吗 ? 学 过 概率 论 的 朋友 都 不 会 阳 生 ， 答 案 是 “ 没 
有 关系 ”。 没 学 过 概率 论 的 朋友 其 实 稍微 想 一 想 也 能 得 出 这 个 结论 。 


这 里 不 妨 再 做 一 个 实验 ， 这 个 实验 略 显 复杂 且 无 三 头 ， 但 是 这 个 
过 程 大 家 想 想 很 快 能 想 明 日 。 


让 100 个 人 ， 每 个 人 都 手持 一 枚 同 球 匀 质 硬 币 ， 让 他 们 各 目 开 始 
扔 ， 一 次 、 两 次 、 三 次 .…… 任 何 一 个 人 都 是 一 直 在 扔 硬币 直到 出 现 最 
近 3 次 连续 都 是正 面 的 时 候 售 下来。 最 后 ， 这 100 个 人 都 会 在 那里 静 静 
地 停 下 来 等 竺 下 一 个 指令 ， 这 个 指令 殉 是 让 他 们 同时 进行 一 次 执 醒 币 
的 动作 ， 然 后 比较 这 100 枚 硬币 正 反 面 出 现 的 比例 。 对 于 每 一 位 参与 实 
验 的 人 来 说 ， 如 采 由 于 前 3 次 投掷 都 产生 正面 而 使 得 第 4 次 投掷 出 现 反 
面 的 概率 变 高 的 话 ， 那 么 会 在 100 人 同时 投掷 的 实验 中 看 到 一 个 奇怪 的 
现象 ， 那 殴 是 出 现 反 面 比 正面 多 很 多 的 情况 。 真 的 会 这 样 吗 ? ATE 
至 还 可 以 观察 更 为 极端 的 情况 ， 那 惑 是 等 竺 最 近 5 次 连续 都 是 正面 的 时 
候 停 下 来 ， 结 果 又 当 如 何 ? 如 有 果 在 一 个 试验 中 直接 扔 100 枚 硬币 ， 那 么 
产生 正面 和 反面 应 该 都 是 50 次 左右 。 这 又 和 刚刚 的 假设 看 上 去 如 此 了 予 
盾 。 究 竟 哪 种 说 法 是 对 的 呢 ? 统计 的 定义 交 给 统计 来 验证 吧 。 


第 4 章 ”统计 与 分 布 


前 一 革 简 单 复习 了 一 下 排列 组 合 ， 束 当 热 热 喘 吧 。 本 草 开始 再 复 
习 一 下 统计 和 分 布 的 知识 。 


统计 学 的 内 容 其 实 非 常 庞 淋 ， 应 用 领域 也 很 三 ， 也 有 着 不 同 的 学 
派 。 但 十 如 果 不 做 学 术 人 研究 而 只 是 关注 应 用 ， 我 认为 未 必需 要 进行 面 
面 俱 到 的 深入 学 习 。 


不 管 是 什么 学 科 ， 尤 其 是 工科 和 理科 中 的 各 个 学 科 ， 它 们 绝 不 会 
是 人 们 单纯 觉得 好 玩 ， 绝 不 会 是 为 了 消 遗 娱乐 而 创立 的 ， 而 是 它 的 发 
展 最 终 能 够 降低 人 类 认 知 或 描述 世界 的 成 本 ， 市 来 工作 效益 的 直接 或 
间接 的 提升 。 有 了 这 个 思路 ， 我 们 在 理解 很 多 现象 的 时 候 都 会 更 目 
然 ， 因 此 这 里 从 应 用 的 思路 来 入 手 。 


4.1 WAE ^ FEE APNE Ze 


上 学 是 每 个 人 几乎 都 经 历 过 的 过 程 ， 拿 来 做 例子 也 许 会 更 加 亲 
PIE 


假设 在 一 所 高 中 ， 有 3 个 年 级 ， 每 个 年 级 有 10 个 班 ， 每 个 班 有 40 到 
60 个 学 生 不 等 。 要 对 这 些 老师 和 学 生 进 行 管理 喊 口号 是 不 好 使 的 ， 作 
为 学 校 的 教学 主任 ， 他 需要 了 解 这 些 学 生 的 学 习 情 况 ， 知 道学 生 学 习 
成 绩 的 变化 ， 老 师 教 学 水 平 的 高 低 ， 以 及 调整 的 方式 (图 4-1) 。 


最 早 的 考试 不 知道 是 哪 位 聪明 人 发 明 的 ， 因 为 考试 是 一 种 天 然 有 
着 “数字 化 管理 ”基因 的 东西 ， 天 然 聘 是 一 种 指标 坏 子 。 例 如 ， 一 次 学 
校 期 末 考 斌 以后， 所 有 的 学 生成 绩 都 汇总 上 来 ， 假 设 考试 的 科目 有 语 
文 、 数 学 、 英 语 3 个 学 科 ， 一 个 包含 1000 多 个 学 生 的 四 五 千 个 单位 的 数 
据 就 会 摆 在 这 位 教学 主任 的 眼前 〈 图 4-2) ° 


倘 大 你 现在 束 是 这 位 教学 主任 ， 需 要 你 和 校长 汇报 一 下 这 次 考试 
各 班 的 情况 如 何 ， 你 会 怎么 办 ? 


图 4-2 ”学 生成 绩 汇总 


把 所 有 的 学 生 的 每 一 门 课 的 成 绩 都 逐个 给 校长 读 一 过 ? Ae e 
化 费 太 多 的 时 间 ， 搞 不 好 开始 汇报 还 没有 3 分 钟 校长 已 经 睡 着 了 。 


4.1.1 ”加 和 值 


这 里 插入 一 段 小 小 的 联想 ， 想 想 平 时 到 超市 里 购物 最 后 在 收银 台 
做 了 什么 事情 。 收 银 员 把 每 件 货品 的 价格 加 和 ， 不 管 是 10 件 还 征 20 件 
还 是 更 多 ， 节 终 只 给 出 一 个 价格 的 合计 值 。 顾 客 按照 这 个 合计 值 付 账 
一 次 性 结束 整个 交易 ， 而 这 显然 是 比 对 每 件 货品 都 单独 结算 一 次 的 时 
间 成 本 低 很 多 的 。 这 里 面 用 到 统计 学 的 知识 了 吗 ? 用 到 了 ， 只 十 它 太 
稀 松平 常 了 以 至 于 人 们 几乎 没有 意识 到 而 已 。 这 种 用 一 个 加 和 值 来 概 
括 性 地 描述 一 群 事 物 的 方法 几乎 不 需要 教学 束 能 直观 地 实现 早 市 上 那 
些 即 便 没有 什么 学 历 的 菜 贩 也 不 用 非 要 找 个 数学 老师 来 系统 教学 一 下 
或 者 深造 一 个 统计 学 专业 的 文 插 才能 开始 给 买 有 大 妈 们 报价 和 卖 苹 
吧 。 所 以 使 用 一 个 性 状 数值 的 加 和 值 来 对 一 群 事物 进行 描述 是 一 种 非 
常 自然 的 描述 方式 〈 图 4-3 上 ) ， 这 简直 太 棒 了 。 
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图 4-3 ”价格 加 和 


这 种 例子 其 实 到 处 都 是 ， 如 平时 说 的 GDP (Gross Domestic 
Product， 国 内 生产 总 值 ， 我 们 常常 口 口 相传 的 国民 生产 总 值 实际 是 
Gross National Product) ， 再 如 “上 个 月 我 出 差 一 共 花 了 2000 
元 ”"， 这 都 是 非常 典型 的 用 总 和 值 来 进行 概括 描述 的 例子 。 人 们 不 需要 
具体 阐述 千 万 个 工厂 每 个 工厂 有 多 大 产值 ， 千 万 家 公司 每 家 公司 有 多 
大 产值 ， 或 者 出 差 吃 某 一 顿 饭 花 了 多 少 钱 ， 坐 出 租车 某 一 次 论 了 多 少 
钱 ， 这 种 细节 的 陈述 太 繁 琐 。 这 就 是 人 们 从 加 和 值 描 述 中 得 到 的 最 大 
好 人 处 一 一 直 奔 主题 ， 只 关心 人 们 最 关心 的 总 和 数字 ， 和 忽略 里 面 的 细 
攻 。 通 党 把 加 和 值 的 概念 用 希腊 字母 ?来 表示 ， 读 作 “ 西 格 玛 ”， 后 面 


JB S 
还 会 经 常 磁 到 这 个 标记 。 


GNP 


然后 再 回来 看 一 下 教学 主任 的 问题 。 征 不 是 也 可 以 很 目 然 地 先 想 
到 ， 干 脆 用 一 个 加 和 值 来 描述 ， 这 一 个 班 所 有 的 学 生 所 有 的 成 绩 加 起 
来 一 共 多 少 分 。 如 果真 的 这 么 做 了 会 出 现 什么 情况 ? 


“一 年 级 一 班 分 数 总 和 9600 分 ， 一 年 级 二 班 分 数 总 和 13500 
分 .…….” 这 一 描述 看 上 去 是 非常 简洁 的 ， 但 是 这 种 描述 带 来 的 信息 几乎 
没有 什么 价值 。 可 以 根据 这 个 数值 比较 说 一 年 级 二 班 的 学 生 比 一 年 级 
一 班 的 学 生 学 习 好 吗 ? 直观 去 看 的 话 ， 这 种 似乎 感觉 很 奇怪 ， 但 是 怎 


么 个 奇怪 法 呢 ? 


事实 上 可 能 是 这 样 ， 一 年 级 一 班 有 40 名 学 生 ， 每 个 人 3 门 功课 每 一 
门 都 是 80 分 ; 一 年 级 二 班 有 60 名 学 后， 每 个 人 3 门 功 课 每 一 门 都 是 75 


分 。 需 要 陈述 到 这 个 级 别 才能 明确 完 竟 哪个 班 更 好 ， 这 显然 和 我 们 用 
简洁 数值 做 描述 的 初衷 背道而驰 。 对 学 生成 绩 的 描述 如 果 能 够 成 为 对 
整个 班级 的 成 绩 概 括 撕 述 ， 同 时 兼 有 对 每 个 个 体 的 朱 述 ， 套 用 现在 流 
行 的 一 句 话 一 一 “ 那 真 是 极 好 的 ”。 有 这 样 一 种 数 吗 ?” 有 的 ， 如 平均 
值 。 


[1] 图 片 来 源 于 百度 图 库 


41.2 平均 值 


平均 值 的 计算 方法 大 家 肯定 很 熟悉 ， 我 们 在 学 生 时 代 束 已 经 经 历 
过 无 数 的 例子 。 上 述 例 子 就 是 以 班级 为 单位 把 每 个 人 的 每 门 课 程 加 在 
一 起 除 以 总 的 学 生 数量 ， 再 除 以 课程 数量 。 


“一 年 级 一 班 有 40 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 
“一 年 级 二 班 有 60 名 学 生 ，3 门 课程 平均 分 为 75 分 ”。 


“一 年 级 三 班 有 50 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 


从 这 里 基本 还 是 能 得 到 一 个 清晰 的 感性 认识 ， 那 束 古 一 年 级 一 班 
和 一 年 级 三 班 的 总 体 水 平 是 “一 样 的 "， 而 且 他 们 比 一 年 级 二 班 的 水 平 
。 因 为 在 使 用 平均 值 进行 比较 时 ， 实 际 直 观感 觉 是 在 对 比 3 个 班级 中 


高 
每 一 个 学 生 个 体 。 


所 有 这 类 用 单一 的 数据 定义 来 概括 性 描述 一 些 抽 象 或 复杂 数据 的 
方式 方法 都 叫做 “指标 ”。 平 均 分 在 这 里 就 是 一 个 很 好 的 指标 ， 因 为 它 
用 一 个 简洁 的 数据 定义 概括 了 众多 数据 的 特性 。 平 均值 和 样本 数量 
(学 生 数 ) 这 两 个 值 就 基本 可 以 描述 清楚 学 生 分 数 的 高 低 情况 了 。 在 
上 述 例子 里 ， 平 均 分 这 种 指标 念 怕 不 是 由 某 个 数学 家 或 者 剧 丙 殊 绝 于 


人 的 家 伙 特 意 发 明 出 来 的 ， 而 是 在 生活 中 由 于 要 进行 对 象 数据 的 宏观 
描述 而 目 然 而 然 产 生 的 一 种 方便 的 数值 计算 和 摘 述 方法 。 


另外， 指标 在 很 多 企 事业 单位 、 学 术 技 术 领 域 都 有 广泛 的 应 用 。 
如 证 券 交 易 中 有 很 多 价格 指标 一 一 用 来 描述 价格 震荡 的 剧烈 程度 、 价 
格 变化 的 趋势 等 ， 环 保 领域 有 PM2.5 浓 度 指标 ， 以 及 交通 警察 在 测量 
司机 是 否 酒 释 时 使 用 的 血液 酒精 浓度 一 一 BAC 指 标 等 。 图 4-4 所 示 为 家 
用 多 功能 环境 测量 仪 右 的 各 种 污染 指标 显示 ， 有 甲醛 、PM2.5、 
PM10、VOC 和 电厂 辐射 ， 这 些 数 值 化 的 读数 都 是 指标 。 


图 4-4 污染 指标 显示 


指标 的 使 用 有 助 于 我 们 人 简练 地 描述 对 象 。 再 回 到 班级 成 绩 统计 的 
PIF ° 


“一 年 级 一 班 有 40 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 


ER UA GO SEE, SME TEATS” o 


“一 年 级 三 班 有 50 名 学 生 ，3 门 课程 平均 分 为 80 分 ”。 


从 这 组 数据 来 看 ， 基 本 可 以 得 到 一 个 印象 ， 殊 是 一 年 级 一 班 的 成 
绩 “ 普 衣 ” 比 一 年 级 二 班 “ 好 ”至少 是 从 “宏观 体现 "上 看 比 二 班 好 ， 它 
和 一 年 级 三 班 “ 一 样 好 ”。 但 是 一 年 级 一 班 和 一 年 级 三 班 这 两 个 班 的 每 
个 人 的 成 绩 都 是 一 样 的 吗 ? 至 少 人 数 是 不 一 样 的 。 那 么 也 许 还 需要 进 
一 步 地 描述 这 平均 下 来 的 80 分 和 每 个 学 生 具 体 的 课程 分 数 之 间 的 差异 
性 有 多 大 ， 这 殊 涉 及 男 一 个 描述 的 需求 一 一 标准 差 。 


41.3 PMEZ 


我 们 和 多 上 公式 ， 标 准 关 公式 如 下 : 


] 3. : Fr 
—> (X, -XY 
H ;1 


下 面 解 释 一 下 这 个 公式 的 含义 。 


我 们 以 一 年 级 一 班 所 有 40 个 学 生 为 例 ， 那 么 3 门 考试 的 情况 下 全 班 
就 有 120 个 分 数 参与 统计 ， 也 就 是 n=120。 把 每 个 学 生 每 门 课 的 成 绩 减 
去 全 班 的 3 个 学 科 总 的 平均 分 80 分 ， 这 样 得 到 120 个 差 值 ， 表 把 这 些 莽 
值 分 别 平方 (主要 是 为 了 去 掉 人 负数， 因为 在 分 数 差距 里 面 ， 不 管 是 比 
这 个 平均 值 多 ， 还 是 比 这 个 平均 值 少 ， 都 补 视 为 偏差 ) ， 将 这 些 平方 
的 结 采 再 加 和 ， 之 后 除 以 参与 统计 的 学 科 数 量 120， 最 后 开平 方 ， 这 个 
数字 只 可 能 是 一 个 大 于 等 于 零 的 数字 。 用 汉字 摘 述 起 来 很 哆 时 ， 但 是 
一 旦 变 成 一 个 标准 差 的 指标 以 后 ， 由 于 是 约定 俗 成 的 ， 所 以 只 需要 “ 标 


准 关 ”这 3 个 字 束 能 表示 了 。 


这 个 数字 表示 的 是 什么 台 义 ? 从 这 个 数字 得 到 的 过 程 其 实 不 难看 
LH o 


AUR BUR ART VIUERE Ce eB ce AEE 4] — FE, AE RAY 
EZME, AKEDA -I 肯定 都 是 02 ; 反之， 如 果 所 有 的 人 
的 课程 成 绩 与 平均 分 的 差距 都 很 大 ， 好 的 很 好 ， 差 的 很 差 ， 那 么 结 
就 是 这 个 值 会 很 大 。 如 采 一 个 班级 成 绩 标准 差 比 男 一 个 班级 成 绩 的 标 
准 差 小 ， 说 明 学 生 之 间 的 考试 成 绩 水 平 差 不 多 ， 标 准 差 大 则 说 明 学 生 
之 间 的 考试 成 绩 水 平 相差 比较 大 。 


需要 说 明 的 是 ， 一 般 来 说 为 了 在 教学 战术 指导 层面 让 平均 值 和 标 
准 差 更 有 和 针对 性 ， 通 瘦 是 不 会 像 例子 里 这 样 来 操作 的 。 更 多 的 钙 以 一 
个 班 为 单位 ， 求 班 里 某 一 个 学 科 成 绩 的 平均 值 和 标准 差 ， 或 者 求 某 一 
个 学 生 所 有 学 科 的 平均 值 和 标准 差 。 这 两 种 计算 分 别 用 来 描述 一 个 教 
师 教学 的 成 果 和 某 个 学 生 的 成 绩 以 及 偏 科 的 程度 。 


例如 , “一 年 级 二 班 有 50 名 学 生 ， 英 语 考 试 平均 分 为 80 分 ， 标 准 差 
为 4.25”,“ 张 三 同学 ， 语 文 、 数 学 、 瑞 语 三 门 课 的 平均 分 为 90 分 ”。 


前 者 能 够 反映 教授 这 个 班 的 英语 教师 的 教学 情况 ， 后 者 能 够 反映 
张 三 这 名 学 生 的 各 学 科学 习 情 况 一 一 当然 都 是 粗 久 的 概述 性 描述 。 


加 和 值 (总 和 值 ，、 平 均值 、 标 准 差 ， 这 几 个 值 是 在 生产 生活 中 
大 量 应 用 的 统计 学 指标 。 不 过 在 此 需要 强调 的 是 ， 也 是 很 容易 被 人 误 
读 的 地 方 。 那 吏 是 ， 平 均值 、 标 准 差 是 客观 的 计算 结果 ， 是 描述 性 的 
说 明 ， 但 古 绝 非 对 比 和 评价 的 标准 。 


不 少 人 认为 ， 某 学 校 某 老 师 的 学 生 的 高 考 平 均 分 比 另 一 学 校 另 一 
老师 的 学 生平 均 分 要 高 ， 这 一 定 说 明 这 个 学 校 这 个 老师 的 教学 水 平 要 
高 。 这 个 因果 关系 不 一 定 是 正确 的 ， 因 为 一 旦 在 生活 中 应 用 ， 客 观 场 
景 的 细 市 会 让 这 种 对 比 变 得 之 雹 意义。 虽然 从 广大 家 长 的 视角 去 看 ， 
不 管 怎 么 样 ， 只 要 有 选择 的 余地 ， 比 较 两 个 班 的 平均 成 绩 来 判断 目 己 
的 孩子 进入 哪个 班 未 来 会 更 有 利 是 有 道理 的 。 


举 个 反例 。 如 果 这 两 个 学 校 的 老师 的 生源 本 身 就 有 很 悬殊 的 差 
BB: 一 个 老师 的 学 生平 均 分 都 在 80 分 左右 ， 只 能 上 一 般 的 大 学 ; 另 一 
个 老师 则 有 不 少 85 分 以 上 的 学 生 ， 还 有 大 量 60、70 分 的 “关系 户 ” 学 
生 ， 如 图 4-5 所 示 。 那么 或 许 后 着 的 班级 里 诞生 清华 北大 的 学 生 的 可 能 
性 还 会 比 前 一 个 班 更 大 也 未 可 知 。 


(a) 教师 一 的 学 生 水 平 
图 4-5 SCUEJCERGE 
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图 4-5 (8) 


所 以 ， 请 读者 注意 ， 平 均 分 、 标 准 差 只 能 做 描述 用 ， 只 是 一 种 简 
清 的 描述 方法 ， 最 多 只 能 帮助 我 们 让 数据 宏观 的 “画面 感 " 更 饱满 。 它 
们 有 既 不 古 对 比 的 标尺 ， 也 不 是 用 来 具体 做 规则 制定 用 的 硬性 尺度 ， 更 
不 能 用 来 孤立 地 评价 好 坏 ， 因 为 “好 坏 ” 这 种 含有 大 量 主 观 判 断 色 彩 以 
及 个 性 化 好 恶 的 东西 本 身 就 很 抽象 而 且 标准 繁多 。 


42 加 权 均 值 


平均 值 这 种 指标 有 一 个 “兄弟 ”， 就 是 加 权 均 值 。 权 (Weight) 指 
的 是 权重 ， 也 就 十 指 所 占 的 “比重 ”或 “重要 ”程度 。 在 前 一 让 的 例子 
里 ,我们 看 到 全 班 学 生 的 平均 值 计 算 方 法 ， 是 把 每 个 样本 值 (学 生成 
i) 直接 加 和 ， 然 后 除 以 学 生 数 再 除 以 学 科 数 量 来 得 到 全 班 每 个 人 每 
学 科 的 平均 值 。 这 里 一 视 同仁 地 把 所 有 学 生 和 所 有 学 科 进 行 等 同 看 
fi. RLSM, 分数 直接 相 加 直接 平均 。 然 而 这 种 方法 并 非 在 
所 有 的 场景 里 都 是 最 合理 的 ， 我 们 再 来 看 一 个 生活 中 的 小 例子 。 


42.1. 1G EJ XE Tf 


在 超市 里 天 可 能 都 到 过 卖 出 售 糖果 零食 副食 品 的 柜 合 去 ， 或 者 至 
少 征 看 过 那里 有 卖 糖 的 。 有 一 类 比较 受 欢 迎 的 糖 叫做 什 钾 糖 ， 有 的 地 
方 叫 杂 拌 糖 ， 就 是 把 几 种 不 同类 型 的 糖 混 在 一 起 卖 (图 4-6) ， 过 年 的 
时 候 通 种 卖 得 不 错 。 毕 竟 对 于 那些 不 是 追求 某 一 种 糠 品 口味 的 人 来 说 
购买 “一 种 糖 ? 束 等 于 天 了 大 干 种 糖 是 很 省 事 的 一 一 至 少 不 需 要 挑选 多 


次 称 重 多 次 。 但 是 这 种 糖 如 何 定 价 呢 ? 


例如 ， 有 一 种 什锦 糖 古 4 种 单 品 糖 按 照 1: 1: 1: 1 的 比例 组 合 而 成 
的 ， 它 们 分 别 定价 为 : 水 有 果糖 15 元 一 厂 ， 奶 糖 25 元 一 厂 ， 牛 轧 糖 30 元 
一 斤 ， 巧 克 力 糖 40 元 一 厂 (图 4-7) ° 


水 果糖 : 15 元/ F 巧克力 : 40/ Fr 


- m ‘> 
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图 4-7 什锦 糖 中 每 种 单 品 按 1: 1: 1: 1 


均匀 混合 以 后 ， 可 以 认为 ， 理 想 状态 下 ， 一 位 客户 如 果 正 好 称 4 斤 
糖 就 恰好 为 1 斤 水 果糖 ，1 斤 奶 糖 ，1 斤 牛 轧 糖 和 1 斤 巧 克 力 糖 。 那 这 4 族 
糖 一 共 应 该 是 多 少 钱 呢 ? 15 元 +25 元 +30 元 +40 元 =110 元 ， 也 就 是 平均 
一 斤 为 27.5 元 。 那 么 这 种 糖 定价 就 应 该 为 27.5 元 才 为 合理 。 因 为 也 确实 
是 这 样 ， 顾 客 购买 的 一 斤 什 锦 糖 里 面 应 该 有 水 果糖 、 奶 糖 、 牛 轧 糖 、 
巧克力 糖 各 0.25 斤 ， 而 0.25 斤 的 4 种 糖 价格 分 别 为 3.75 元 ，6.25 元 ，7.5 
元 ，10 元 ， 加 和 仍然 是 27.5 元 一 一 两 种 算法 是 一 样 的 。 


如 果 这 几 种 糖 的 混合 比例 为 1: 2: 3: 4 (图 4-8) ， 那 么 也 比较 容 
易 得 出 ， 在 混合 均匀 的 情况 下 ，10 斤 糖 里 有 1 斤 水 果糖 ，2 斤 奶 糖 ，3 斤 
牛 轧 糖 和 4 斤 巧 克 力 糖 。15 元 xl+25 元 x2+30 元 x3+40 元 x4=315 元 ， 也 就 
是 平均 31.5 元 才 为 合理 。 这 其 实 就 是 一 种 加 权 平 均 的 算法 了 ， 因 为 每 
种 粮 的 价格 在 什锦 糖 的 均 价 上 体现 出 来 的 是 不 同 的 比重 。 如 果 不 按照 
这 种 方法 定 ， 还 是 按照 非 加 权 平 均 的 方式 去 算 会 怎么 样 呢 ? 按照 前 面 
的 例子 那 就 是 27.5 元 一 斤 ， 而 10 斤 的 什锦 糖 为 275 元 ， 比 应 售 价 低 40 


元 ， 显 然 是 亏本 的 买卖 。 
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图 4-8 ”什锦 糖 中 每 种 单 品 按 1: 2: 3: 4 的 比例 混合 


这 种 由 于 混合 比例 所 产生 的 权重 不 同 ， 进 而 使 用 加 权 平 均 来 进行 
计算 的 思路 还 有 很 多 。 如 某 些 混合 液体 的 成 本 售 算 ， 要 把 每 种 液体 的 
成 本 和 份 数 考虑 在 内 ， 而 不 能 直接 用 液体 单价 加 和 了 直接 平均 。 尤 其 
we PWS OEC AES RR KS A OR ASRS, EPF 
成 本 的 时 候 必须 是 用 比例 来 计算 。 如 以 重量 1: 4 的 原 浆 和 水 的 比例 来 
义 兄 日 酒 ， 义 部 完 的 日 酒 成 本 怎么 计算 ? 


1kg 晶 酒 成 本 = (1kg 日 酒 原 浆 成 本 x1+1kg 水 成 本 x4) + (1+4) 


而 绝对 不 会 是 


(1kg 白 酒 原 奖 成 本 +1kg 水 成 本 ) +2 


4.2.2 ”决策 权衡 


除了 计算 混合 物 的 定价 ， 还 有 很 多 场合 部 会 用 到 加 权 平 均 的 概 
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在 一 些 决策 的 场合 我 们 会 用 到 加 权 均 值 的 概念 。 例 如 ， 在 股东 大 
会 上 投票 决议 是 否 通过 某 一 决定 的 情况 下 ， 以 所 持 股 作为 投票 单位 ， 
那么 这 种 情况 显然 大 股东 一 一 持 有 比 一 般 股东 多 很 多 股票 的 股东 对 决 
策 意见 的 左右 能 力 就 要 强 很 多 。 控 股 的 大 股东 拥有 超过 50% 的 股份 ， 
这 种 情况 显然 是 一 家 说 了 算 (图 4-9) 。 这 是 一 种 典型 的 加 权 均 值 的 概 
am, ME Biel EP o 


同意 给 我 加 互 资 的 举 手 .. . 
好 ， 一 半 以 上 通过 . .. 


51% ARILAR fc 


图 4-9 ”股东 大 会 上 的 投票 (WEE) 


再 如 ， 一 些 重大 的 国家 重点 建设 项 目 要 进行 广泛 的 意见 听取 和 决 
策 投票 。 这 种 时 候 的 投票 往往 也 是 加 权 性 质 的 ， 形 式 上 可 能 略 有 不 同 
但 是 实质 没有 区 别 。 


举例 来 说 ， 决 定 某 地 区 水 电站 建设 最 后 方案 是 否 通过 ， 假 设 项 目 
组 每 个 参与 决策 的 人 员 都 有 打分 的 权利 ， 百 分 制 ， 规 则 如 下 。 


(1) 100 分 为 完全 同意 ，0 分 为 不 同意 ，50 分 为 完全 中 立 。 


(2) 只 有 全 部 人 打分 超过 75 分 为 通过 〈 立 刻 按 方案 执行 ) 。 


(3) 26~74 分 为 再 修改 (意见 正 反 两 派 分 歧 较 大 ， 和 需要 修改 ) 。 


(4) 0~25 分 为 否决 〈 挂 起 或 无 限期 延迟 ) 。 


这 种 情况 下 ， 通 前 是 不 会 把 每 个 人 的 打分 直接 加 和 然后 求 乎 均值 
的 ， 取 而 代 之 的 或 许 会 是 以 下 方案 。 


与 会 的 两 院 院士 的 意见 分 数 有 可 能 古 不 动 的 ， 也 束 是 权 值 为 1 。 


与 会 的 当地 主要 领导 权 值 为 0.8。 


与 会 的 当地 能 源 口 的 领导 权 值 为 0.6.…… 


最 后 用 各 目 打 的 分 数 乘 以 这 个 权重 ， 目 然 分 数 会 在 一 定 程 度 上 加 
着 权 值 高 的 打分 方 倾斜 (图 4-10) 。 


总 之 ， 在 决策 中 做 加 权 平 均 的 目的 是 为 了 让 整个 决策 既 融 合 众 多 
参与 方 、 利 益 方 的 意见 ， 同 时 也 尽量 使 它 向 着 更 权威 、 更 理性 、 更 科 
学 的 方面 倾斜 ， 这 是 它 的 核心 指导 思想 。 这 里 只 是 泛泛 地 用 这 样 一 个 
场景 做 说 明 ， 实 际 操作 起 来 会 更 加 复杂 、 严 齐 与 合理 。 加 权 平 均 在 决 
策 中 的 用 法 是 比较 常见 的 ， 在 经 济 管 理学 领域 的 “德尔 菲 法 
MW” (Delphi Method) 中 加 权 平 均 是 一 个 重要 的 思想 。 


XX 项 目 建 设 方案 投票 


项 目 主 可 领导 《财务 方面 领导 
图 4-10 投票 中 的 权 值 分 配 


据 称 德 尔 菲 法 则 是 在 20 世 纪 40 年 代 由 赫 尔 默 (Helmer) 和 戈 登 
(Gordon) 首创 。1946 年 ， 美 国 兰 德 公 司 为 避免 集体 讨论 存在 的 屈从 
于 权威 或 盲目 服从 多 数 的 缺 隐 ， 首 次 用 这 种 方法 进行 定性 预测 ， 后 来 
该 方法 被 迅速 广泛 采用 。20 世 纪 中 期 ， 当 美国 政府 执意 发 动 朝鲜 战争 
时 ， 兰 德 公 司 又 提交 了 一 份 预测 报告 ， 预 告 这 场 战 争 必 败 。 政 府 完全 
没有 采纳 ， 结 果 几 年 后 一 败 涂 地 。 从 此 以 后 ， 德 尔 菲 法 得 到 广泛 认 
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这 些 在 经 济 学 、 管 理学 等 领域 使 用 的 加 权 均 值 的 应 用 都 是 其 推广 
和 引申 ， 都 是 在 决策 中 广泛 应 用 的 场景 ， 大 家 有 兴趣 还 可 以 目 己 去 发 
现 更 多 的 例子 。 


43 ”从 数 、 中 位 数 


不 只 是 平均 值 、 标 准 关 这 样 的 数值 能 够 用 来 对 一 群 对 象 进行 描 
述 ， 众 数 和 中 位 数 也 有 相关 的 作用 。 


43.1 KI 


看 这 样 一 个 例子 ， 一 个 小 区 的 理发 师 ， 在 对 当天 所 有 前 来 理发 的 
人 做 了 年 龄 登记 后 ， 得 到 这 样 一 个 年 龄 列表 “15、20、22、22、23、 
35、50、72”， 一 共 8 位 顾客 。 其 中 ，22 就 是 众 数 。 众 数 反映 的 是 一 个 
多 数 的 概念 ， 即 一 个 数字 比 其 他 的 数字 出 现 得 多 ， 或 者 更 普遍 。 


再 如 ， 我 的 同事 娟 娟 也 为 我 页 献 了 两 个 例子 ， 其 一 ， 她 每 个 月 都 
要 读 儿 本 书 ， 去 年 一 年 每 个 月 读书 的 数量 分 别 为 "2、2、3、2、3、2、 
1、1、1、0、1、6”， 这 里 面 有 两 个 众 数 一 --1 和 2， 都 是 出 现 最 多 的 ， 
均 为 4 次 ， 而 其 他 数值 出 现 的 次 数 比 4 次 少 ， 这 说 明 普 遍 每 个 月 会 读 1 本 
书 或 者 2 本 书 ; 其 二 ， 她 每 周 要 看 一 部 电影 ， 两 个 月 统计 下 来 每 周 看 的 
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剧 ”。 其 中 , “喜剧 ”是 众 数 ， 出 现 3 次 〈 图 4-11) ° 


(GIB. RRTM 
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看 固 星 驰 的 喜剧 ……. en 


图 4-11 看 电影 


E, 我们 可 以 感性 地 理解 众 数 殊 古 在 样本 对 象 中 出 现 最 多 的 那 
个 数字 。 但 是 在 最 后 的 例子 里 我 们 也 看 到 ， 虽 然 叫做 * 众 数 "， 可 征 不 
一 定 是 数字 ， 也 有 可 能 是 别 的 数据 类 型 ， 例 子 里 给 的 是 一 个 电影 类 型 
的 文字 枚 举 值 。 当 然 ， 如 有 果 在 样本 对 象 中 没有 任何 一 个 数值 比 其 他 对 
RE (如 所 有 的 数值 都 只 出 现 一 次 ， 或 者 都 出 现 两 次 …...) ， 这 种 情 
沉 下 证 不 存在 众 数 的 ， 也 融 是 说 没有 一 个 数字 比 其 他 的 数字 出 现 得 更 
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众 数 在 我 们 日 党 生活 中 应 用 的 例子 也 是 有 的 ， 如 娟 娟 每 周 都 要 看 
影 ， 而 如 采 喜 剧 电影 是 众 数 这 个 信息 被 她 的 肝 拜 者 知道 了 ， 那 严 两 
张 喜 剧 电影 票 请 她 看 电影 的 情况 下 会 比 闫 两 张 战 争 题 材 或 者 其 他 故事 
片 电影 更 有 成 功 的 把 握 。 这 种 众 数 的 应 用 场景 吏 是 对 人 偶 好 特点 的 摘 


xk o 
对 于 做 数据 库 开 发 的 人 来 说 ， 平 时 在 做 


SELECT COUNT | 


XXX FROM TABLE GROUP BY XXX. 


EFT IN PER ERY He TERK, Ae BERANE 
有 可 能 得 不 到 众 数 而 已 。 


43.2 ”中 位 数 


中 位 数 ， 顾 名 思 义 ， 束 是 位 于 中 间 位 置 的 数字 。 


举 个 例子 ， 一 组 新 毕业 的 大 学 生 参 加 新 员工 入 职 体检 ， 身 高 测量 
样本 如 下 (单位 为 厘米 ”， 从 小 到 大 排序 “168、172、175、175、 
177、185、205”， 一 共 7 个 数字 ， 中 位 数 是 175 一 一 从 高 到 低 数 也 是 第 4 
个 ， 从 低 到 高 数 也 是 第 4 个 。 如 果 是 8 个 数字 ,“168、172、175、175、 
177、177、185、205”、 那么 中 位 数 是 176， 即 177+175/2。 找 到 中 位 数 
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的 新 员工 一 一 身高 205 厘 米 的 这 位 ， 这 样 7 个 人 平均 值 是 179.57， 比 中 
位 数 175 明 显 大 一 些 。 如 采 去 掉 205 这 个 样本 再 求 一 次 平均 值 ， 平 均值 
为 175.33， 中 位 数 是 175。 用 中 位 数 来 描述 样本 的 分 布 ， 在 一 定 程度 上 
可 以 消除 个 别 极端 值 对 整个 样本 平均 值 的 影响 。 


我 们 平时 在 生活 中 用 平均 值 来 描述 样本 的 情况 比较 多 ， 而 较 少 用 
众 数 和 中 位 数 ， 主 要 是 因为 平时 生活 中 的 场景 中 多 为 正 态 分 布 ， 所 以 
平均 值 、 中 位 数 、 众 数 非 常 接 近 ， 那 么 只 用 平均 值 最 多 加 上 标准 甘 来 
表示 即 能 够 满足 一 般 性 的 描述 需求 。 至 于 正 态 分 布 定 什么 ， 后 文 将 会 


VIE 


44 KRES 


在 刚刚 讲述 标准 差 的 例子 里 其 实 我 们 还 用 到 一 个 概念 ， 丈 是 欧 氏 
距离 (Euclidean Distance) ， 只 是 当时 没有 提出 这 个 概念 。 回 想 一 下 
计算 标准 差 的 过 程 , “把 每 个 学 生 每 门 谍 的 成 绩 减 去 平均 分 ， 再 把 这 些 
差 值 分 别 平 方 ， 将 这 些 平 方 的 结果 再 加 和 ， 之 后 除 以 学 生 数 量 ， 最 后 
2p tse 


注意 中 间 这 个 过 程 : “RA Pop, Ee (EP 
方 ”， 这 其 实 就 是 在 求 “ 欧 氏 距 离 ” 的 过 程 。 


所 谓 欧 氏 距离 中 的 “ 欧 ” 指 的 十 被 称 作 几 何 之 父 的 古 布 腊 数 学 家 欧 
几 里 得 。 欧 氏 距 离 是 在 其 巨著 《几何 原本 》 中 所 到 的 一 个 非常 重要 的 
概念 。 欧 氏 距 离 的 定义 大 概 是 这 样 的 : 在 一 个 N 维 度 的 空间 里 ， 求 两 
个 点 的 距离 ， 这 个 距离 肯定 是 一 个 大 于 等 于 0 的 数字 〈 也 就 是 说 没有 人 负 
距离 ， 最 小 也 就 是 两 个 点 重合 的 零 距 离 ) ， 那 么 这 个 距离 需要 用 两 个 
点 在 各 目 维度 上 的 坐标 相 减 ， 平 方 后 加 和 再 开平 方 。 


欧 氏 距离 使 用 的 范围 实在 是 太 广 泛 了 ， 我 们 几乎 每 天 都 在 使 用 。 


一 维 的 应 用 就 相当 多 ， 如 在 地 图 上 有 一 条 笔直 的 东西 向 或 者 南北 
加 的 路 ， 在 上 面 有 两 个 总 ， 怎 么 量 取 它 们 在 地 图 上 的 距离 ? 数 轴 标 识 
如 图 4-12 所 示 ， 可 以 用 尺子 的 刻度 贯 罕 两 个 点 ， 大 值 减 小 值 束 能 直接 
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一 个 点 的 读数 减 去 男 外 一 个 点 的 读数 ， 不 管 结 采 正人 负 ， 将 它 平方 后 再 
开 方 ， 还 是 一 个 非 负 数 的 值 ， 这 两 种 办 法 本 质 上 没有 什么 区 别 。 地 图 
明明 是 一 个 二 维 平面 的 概念 ， 为 什么 非 要 说 是 一 维 的 呢 ? 只 是 因为 量 
取 的 手段 和 一 维 一 样 ， 只 参考 一 个 维度 的 读数 就 可 以 了 。 
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图 4-12 ” 欧 氏 距离 一 维 的 应 用 


二 维 的 应 用 也 是 很 多 的 ， 其 中 最 典型 的 莫 过 于 人 们 熟知 的 “ 勾 股 害 
EH” AA: 


c=Va +b 


g= (x, -—x,)) - (7 Y 


在 一 个 直角 三 角形 里 ， 斜 边 长 度 等 于 两 个 直角 边 平方 之 和 再 开 
方 。 这 其 实 束 是 求 斜 边 两 个 端点 的 欧 氏 距离 ， 别 和 还 了 这 里 有 一 个 隐 合 
条 件 ， 束 古 斜 边 距离 是 不 能 用 尺子 直接 去 量 的 ， 只 能 用 两 个 已 知 的 直 
角 边 的 长 度 做 条 件 。 至 于 和 斜 边 长 度 等 于 两 个 直角 边 之 和 的 定理 在 不 同 
的 阶段 用 三 角 画 数 作为 工具 证 明 过 ， 用 面积 作为 工具 证 明 过 ， 用 相似 


三 角形 的 方法 证 明 过 ， 方 法 实在 是 太 多 了 ， 在 百度 网 页 搜索 中 我 们 至 
少 可 以 找到 16 种 完全 不 同 而 且 都 是 正确 的 方法 。 图 4-13 所 示 为 一 种 二 
维 空间 中 的 向 量 计算 方式 示意 图 ， 在 知道 向量 分 别 在 x 轴 和 y 轴 的 投影 
之 后 殊 能 用 勾 股 定理 求 出 欧 氏 距离 。 


图 4-13 ”二 维 空间 中 的 向 量 计算 


推广 到 三 维 的 应 用 ， 还 是 可 以 使 用 勾 股 定理 的 思路 进行 计算 。 每 
个 后 都 问 3 个 平面 各 做 一 条 垂 线段 ， 可 以 看 出 ， 两 个 点 的 距离 其 实 束 是 
一 个 长 方 体 的 对 角 线 长 度 。 最 后 得 到 距离 为 3 个 维度 的 坐标 差 值 分 别 平 
方 加 和 再 开平 方 : 


3 


a= (x, x,) * (7 x,Y 9 (4 -2,) 


这 只 是 在 两 个 平面 空间 中 用 了 两 次 勾 股 定理 而 已 。 


例如 ， 在 忽略 地 球 目 喘 弧度 的 情况 下 ， 求 两 个 距离 较 近 的 不 同 融 
度 的 楼 宇 顶 部 距离 ， 完 全 可 以 使 用 这 种 欧 氏 距离 的 定义 直接 求解 。 如 
图 4-14 所 示 ， 在 三 维 空间 中 ， 实 际 需 要 使 用 两 次 二 维 空间 上 的 勾 股 定 
理 束 能 计算 出 三 维 空间 中 的 两 点 之 间 的 欧 氏 距离 。 
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图 4-14 三 维 空间 中 的 欧 氏 距 离 应 用 


根据 上 述 一 维 、 二 维 、 三 维 的 欧 氏 距离 计算 方法 : 


? 


d (x, —X, y i: (Y, -P + (3 m z,) 


可 以 推断 四 维 、 五 维 一 直到 N 维 空间 上 的 欧 氏 距离 的 计算 公式 ， 一 定 
征 N 个 维度 的 “读数 " 凑 的 平方 再 开 方 。 


欧 氏 距离 除了 刚刚 举 的 例子 ， 在 后 面 数据 挖掘 部 分 会 有 很 多 应 用 
场景 。 它 主要 用 来 描述 两 个 多 维 点 之 间 的 “距离 ”， 遗 憾 的 是 ， 三 维 以 
下 的 点 和 点 的 距离 通过 刚刚 的 讲解 很 容易 出 现 画 面 感 ， 四 维和 四 维 以 
上 的 距离 就 只 能 赁 想象 了 ， 只 是 在 计算 中 确实 存在 且 有 对 应 的 含义 解 
释 。 这 种 解释 通常 也 用 来 直接 判断 两 个 点 在 多 维 关 系 上 谁 与 谁 
更 “ 近 ”， 虽 然 超 过 三 维 的 情况 下 这 个 “ 近 ” 已 经 没有 办 法 用 手边 的 工具 
量 出 来 。 例 如 ， 在 一 个 五 维 空间 里 ，A 点 和 B 点 的 距离 为 6，A 点 和 C 点 
的 距离 为 10， 那 么 就 可 以 认为 B 点 到 A 点 的 距离 比 C 点 到 A 点 的 距离 更 
近 ， 这 样 就 足够 了 。 


介绍 了 欧 氏 距离 ， 再 来 介绍 一 下 曼哈顿 距离 (Manhattan 


Distance) $ 
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起 来 比较 复杂 ， 要 平方 ， 加 和 ， 再 开 方 ， 而 人 们 在 空间 儿 何 中 度量 距 


离 很 多 场合 其 实 是 可 以 做 一 些 简 化 的 。 曼 哈 顿 距离 就 是 由 19 世 纪 著 名 
的 德国 犹太 人 数学 家 一 一 赫 尔 曼 - 闵 可 夫 斯 基 发 明 的 (图 4-15) 。 H 


图 4-15 JR ER BORA 
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他 是 后 来 四 维 时 空 理 论 的 创立 者 ， 也 曾经 是 著名 物理 学 家 爱 因 斯 坦 的 
老师 。 


曼哈顿 距离 也 叫 出 租车 距离 ， 用 来 标明 两 个 点 在 标准 坐标 系 上 的 
绝对 轴 距 总 和 。 简 单 来 说 ， 对 比 一 下 欧 氏 距离 。 


欧 氏 距离 里 的 距离 计算 : 


c — AQ - X.) +(y, -yy 
曼哈顿 距离 中 的 距离 计算: 
czix-xlt*i»x-»i 


曼哈顿 距离 中 的 距离 计算 公式 比 欧 氏 距 离 的 计算 公式 看 起 来 简 滞 
很 多 ， 只 需要 把 两 个 点 坐标 的 x 坐标 相 减 取 绝 对 值 ，y 和 坐标 相 减 取 绝 对 
值 ， 再 加 和 。 


从 公式 定义 上 看 ， 受 哈 顿 距离 一 定 是 一 个 非 负 数 ， 距 离 最 小 的 情 
况 就 是 两 个 点 重合 ， 距 离 为 0， 这 一 点 和 欧 氏 距离 一 样 。 受 哈 顿 距离 和 
欧 氏 距离 的 意义 相近 ， 也 十 为 了 描述 两 个 点 之 间 的 距离 ， 不 同 的 是 受 
哈 顿 距离 只 需要 做 加 减法 ， 这 使 得 计算 机 在 大 量 的 计算 过 程 中 代价 更 
低 ， 而 且 会 消除 在 开平 方 过 程 中 取 近 似 值 而 带 来 的 误差 。 不 仅 如 此 ， 
曼哈顿 距离 在 人 脱离 计算 机 做 计算 的 时 候 也 会 很 方便 。 举 例如 下 。 
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图 4-16 ”国际 象棋 


在 国际 象棋 棋盘 (图 4-16) 上 ， 有 这 种 横 平 坚 直 的 格子 ， 描 述 格子 
和 格子 之 间 的 距离 可 以 直接 用 曼哈顿 距离 。 如 A1 格 子 到 C4 格子 的 曼 哈 
顿 距离 计算 如 下 : 


e=|3-1|+|4-1|=5 
两 个 格子 之 间 的 曼哈顿 距离 为 5 。 


之 所 以 曼哈顿 距离 义 被 称 为 出 租车 距离 是 因为 在 像 纽约 曼哈顿 区 
这 样 的 地 区 有 很 多 由 横 平 坚 直 的 街道 所 切 成 的 街区 (Block) ， 出 租车 
司机 计算 从 一 个 位 置 到 男 一 个 位 置 的 距离 ， 通 常 直 接 用 街区 的 两 个 从 
标 分 别 相 减 ， 再 相 加 ， 这 个 结 来 束 是 他 即将 开车 通过 的 街区 数量 ， 而 
完全 没有 必要 用 欧 氏 距离 来 求解 一 一 算 起 来 超级 麻烦 还 没有 意义 ， 毕 


竟 谁 也 没 办 法 从 欧 氏 距离 的 直线 上 飞 过 去 。 如 图 4-17 中 所 示 ， 假 设 一 
辆 出 租车 要 从 上 面 的 圆圈 位 置 走 到 下 面 的 圆圈 位 置 ， 无 论 古 左边 的 线 
路 ， 还 是 右边 的 线路 ， 都 要 经 过 11 个 街区 ， 而 这 个 11 就 是 曼哈顿 距 
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大 的 学 术 意 义 不 如 说 更 多 的 是 应 用 意义 。 这 也 是 本 书 一 直 想 说 的 一 
上 护 ， 数 学 束 在 我 们 身边 ， 它 是 我 们 的 工具 ， 能 帮 我 们 解决 问题 而 不 是 
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图 4-17 曼哈顿 距离 的 应 用 


上 面 的 公式 只 给 了 二 维 空间 上 的 曼哈顿 距离 公式 ， 三 维 、 四 维 或 
者 更 多 维度 的 计算 原理 是 一 样 。 


[1] 图 片 来 源 于 百度 图 库 。 


[2] 图 片 来 源 于 谷歌 地 图 ， 曼 哈 顿 街区 。 


4.6 同比 和 环比 


在 看 一 些 公司 的 财务 报告 或 者 看 新 闻 的 时 候 ， 稼 常会 听 到 “今年 7 
月 销售 额 1000 万 元 ， 同 比 去 年 增长 100%， 环 比 增长 25%? 诸 如 此 类 的 说 


法 。 


何 为 同比 ? 就 是 “与 相 邻 时 段 的 同一 时 期 相 比 ”的 意思 ， 在 这 个 例 
FH, 今年 7 月 同比 增长 10% 的 意思 就 是 今年 7 月 的 销售 额 和 去 年 7 月 的 
请 售 人 额 相 比 增长 10%， 这 样 推断 来 看 ， 去 年 7 月 销售 额 应 该 是 500 万 元 
(图 4-18 (a) ) 。 


何 为 环比 ? 就 是 直接 和 上 一 个 报告 期 进行 比较 ， 在 这 个 例子 里 ， 
环比 增长 25% 的 意思 就 是 今年 7 月 的 销售 额 和 今年 6 月 的 销售 额 相 比 增长 
25%， 这 样 推断 来 看 ， 今 年 6 月 的 销售 额 为 800 万 元 (图 4-18 (b) ) 。 


(a) 同比 (b) 环比 
图 4-18 ”同比 与 环比 (WME) 


但 是 ， 在 真实 应 用 的 时 候 通 第 古 不 会 这 样 来 反 推 前 值 的 ， 而 是 先 
得 到 前 值 和 当期 值 然 后 做 比较 得 出 同比 和 环比 。 


这 种 比 对 其 实 也 是 天 然 形 成 的 ， 要 知道 在 公司 或 组 织 运 营 中 通常 
喜欢 用 周期 性 单位 来 做 计划 ， 不 管 是 预算 计划 ， 还 是 工作 任务 分 派 计 
划 ， 用 周 、 月 、 季 度 、 年 都 是 可 以 的 ， 选 取 的 周期 大 小 完全 取决 于 工 
作 场 景 中 这 个 周期 是 不 是 容易 把 握 和 调整 。 在 一 个 周期 结束 的 时 候 ， 
通 音 要 对 这 个 周期 的 工作 内 容 进行 总 结 ， 这 种 总 结 的 目的 束 是 对 比 和 
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同比 、 环 比 的 周期 在 选用 时 要 适当 ， 太 小 不 方便 ， 太 大 同样 不 方 
便 。 我 们 可 以 把 同比 和 环比 看 成 体检 ， 束 好 比 每 个 人 做 体检 ， 一 年 一 
次 ， 一 年 两 次 即 可 。 再 有 钱 也 没有 必要 一 天 体检 一 次 ， 而 十 年 八 年 才 
体检 一 次 忍 怕 对 疾病 预防 起 不 到 什么 作用 。 


举 个 生产 中 常见 的 例子 ， 例 如 ， 互 联网 公司 用 周 和 月 其 至 是 天 做 
短期 的 运营 时 间 单 位 ， 因 为 可 以 在 比较 短 的 时 间 内 看 到 反馈 和 周期 性 
变化 的 规律 符 点 ， 用 年 做 单位 则 显得 有 些 条 重 ， 反 馈 慢 。 互 联网 公司 
常用 的 同比 环比 的 对 象 有 什么 呢 ? 日 /月 活跃 用 户 数 ， 简 称 “ 日 活 * 和 “月 
活 ”， 这 是 经 常用 来 做 同比 和 环比 的 对 象 ， 还 有 日 PV 数 (Page 
Views) ， 也 就 是 俗称 的 点 击 量 ， 一 个 用 户 发 生 一 次 网 页 访问 就 算 一 个 
PV， 很 多 互联 网 公司 在 做 运营 时 把 PV 数 当成 一 个 网 站 活跃 程度 重要 的 
指标 。 图 4-19 所 示 为 新 浪 网 (www.sina.com.cn ) 的 Alexa 网 站 排名 ， 其 


中 “日 均 PV[ 周 平均 ]j 的 概念 就 是 统计 7 天 的 PV 数 然后 除 以 7， 大 约 5.64 亿 
次 一 一 真是 不 得 了 。 
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图 4-19 ”新浪 网 的 Alexa 网 站 排名 


如 有 果 把 国家 也 看 成 一 个 公司 来 运营 ， 它 的 大 政 方针 通常 用 年 ， 甚 
至 是 5 年 来 做 运营 时 间 单 位 ， 如 果 用 日 和 周 则 会 使 得 计划 过 于 细碎 ， 对 
于 细 市 也 非常 难以 做 到 有 效 的 反馈 和 调整 。 


同比 和 环比 在 我 们 平时 制作 报表 的 时 候 会 经 常用 到 ， 对 比 的 对 象 
也 很 丰富 ， 可 以 对 比 某 些 项 目的 加 和 值 ， 也 可 以 对 比 平均 值 ， 只 要 是 
同一 对 象 同一 单位 的 值 对 比 束 是 有 意义 的 。 男 外 ， 同 比 和 环比 也 是 在 
平时 公司 报表 中 最 闻 用 的 比较 手段 之 一 ， 几 乎 所 有 的 宫 业 指标 都 可 以 
使 用 同比 和 环比 进行 目 我 比较 ， 很 直观 也 很 方便 。 


而 在 所 有 的 宫 业 指标 里 最 常用 的 周期 指标 通 肖 是 “月 同比 "和 “月 环 
比 "， 除 了 周期 大 小 较为 合适 以 外 ， 月 环比 能 够 与 最 近 一 个 经 营 周 期 做 
对 比 ， 便 于 快速 反应 ;而 月 同比 是 和 去 年 的 同期 月 相 比 ， 这 种 比较 会 
过 滤 挥 一 些 周 期 性 的 波动 的 影响 因素 。 


举 个 例子 ， 某 网 吧 2014 年 9 月 份 在 其 网 吧 淡 机 规模 一 直 没 有 变化 的 
情况 下 上 座 率 环比 下 降 25%， 同 比 上 升 10%， 这 说 明 它 经 营 情况 下 滑 了 
吗 ? 不 一 定 ， 要 知道 9 月 份 和 8 月 份 有 一 个 很 大 的 区 别 是 中 小 学 生 暑假 
假期 正好 在 8 月 发 结 束 ， 很 多 孩子 没有 假期 那么 目 由 能 够 去 上 网 了 ， 网 
吧 的 上 座 率 由 于 这 种 周期 性 波动 产生 的 环比 下 降 是 一 种 目 然 且 正常 的 
波动 。 而 同比 上 升 10% 就 说 明 今 年 9 月 份 比 去 年 9 月 份 上 座 率 还 是 提高 
109%， 因 此 不 能 断定 网 吧 的 经 理 有 下 清 。 


X— A, WERE o 


4.7 抽样 


抽样 (Sampling) 是 一 种 非常 好 的 了 解 大 量 样 本 空间 分 布 情况 的 方 
法 ， 样 本 越 大 则 抽样 党 来 的 成 本 减少 的 收 共 束 越 明 显 。 


例如 ， 一 个 大 型 食品 加 工厂 一 天 要 出 货 100 万 包 方便 面 。 为 了 检验 
方便 面 的 质量 或 者 说 合格 率 ， 在 出 厂 的 时 候 每 一 包 都 打开 检验 一 下 是 
很 不 现实 的 。 束 算 时 间 人 允许 ， 所 有 的 方便 面部 开 包 测 重金 属 、 阔 群 数 
量 、 酸 价 .…... 即 便 这 种 方法 检测 出 来 的 结 采 能 够 覆盖 所 有 的 出 三方 便 
面 ， 也 确实 是 一 种 极为 精确 的 方法 ， 然 而 这 些 方便 面 在 被 检验 后 也 只 
能 扔 进 垃圾 堆 了 ， 完 全 不 具备 可 操作 性 。 图 4-20 所 示 为 用 已 经 粉末 
化 的 方便 面 做 酸 价 检测 ， 看 上 去 摘 一 次 也 亦 复 杂 的 。 
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在 方便 面 出 三 的 时 候 一 般 是 这 样 做 的 一 一 其 实 别 的 很 多 产品 操作 
方法 也 相近 ， 用 类 似 扔 骨 子 的 方法 来 选择 取 哪 儿 箱 ， 哪 儿 包 方 便 面 ， 
取出 一 定 的 比例 来 做 随机 抽 测 ， 这 在 我 国 的 产品 质量 检验 国家 标准 中 
征 有 明文 规定 的 。GB 10111 标 准 束 规定 了 利用 随机 数 骨 子 进行 随机 抽 
样 的 方法 。 这 种 货 子 不 是 我 们 平时 麻 将 用 的 6 面 的 般 子 ， 而 是 有 20 面 的 
山子 ， 标 有 0~9 的 读数 ， 每 个 读数 占 两 面 ， 如 图 4-21 号 所 示 。 


图 4-20 ”方便面 的 酸 价 测试 


倘若 100 万 包 里 只 挑 出 100 包 来 做 测试 ， 如 有 果 发 现 有 1 包 有 质量 问 

题 ， 按 照 抽 样 比例 会 推定 所 有 的 100 万 包 里 有 可 能 有 10000 包 面 有 相同 
的 质量 问题 ， 同 理 ，2 包 有 质量 问题 束 推 是 会 有 20000 包 面 有 相同 的 质 
量 问题 。 在 真实 的 操作 中 ， 这 种 抽检 的 比例 有 可 能 会 更 低 ， 不 会 天 天 
都 检测 ， 如 半年 一 次 ， 一 次 看 干 包 。 这 种 方式 虽然 看 上 去 可 能 会 产 

生 * 漏 网 之 鱼 "， 会 有 一 定 的 几率 让 不 合格 产品 流向 市 场 ， 但 是 从 工业 
生产 的 角度 来 说 操作 性 大 大 增强 ， 操 作成 本 也 降 到 极 低 。 毕 竟 检 难 手 
段 的 发 明和 进步 ， 究 其 根本 还 是 为 了 保证 产业 的 民 性 发 展 而 绝 非 阻碍 
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抽样 也 可 以 应 用 于 许多 别 的 领域 ， 如 在 类 似 民 意 调查 中 使 用 抽 
样 ， 同 样 可 以 事半功倍 起 到 非常 好 的 作用 。 有 一 个 例子 也 很 经 典 ， 就 
苹 美 国民 意 调查 的 例子 ， 这 个 例子 也 见于 涂 子 沛 先生 的 《数据 之 亨 》 
一 书 ， 非 常 有 趣 。 


1936 年 ， 一 本 叫做 《文学 文摘 》 的 杂志 在 对 240 万 名 普通 美国 民众 
进行 了 民意 调查 问卷 后 ， 得 到 结论 ， 认 为 兰 登 (Alfred Landon) 会 当 
选 第 33 任 类 国 总 统 。 要 知道 240 万 的 民众 可 不 算 小 数目 ， 印 发 、 邮 寄 、 
统计 ， 这 些 都 会 消耗 大 量 的 人 工 成 本 。 但 是 《文学 文摘 》 选 取 这 么 大 
的 一 个 样本 进行 统计 ， 从 目的 来 看 显然 是 认为 调查 对 象 越 多 则 调查 结 
果 越 准确 ， 为 此 他 们 不 惜 血本 。 此 时 ， 一 所 刚刚 成 立 不 久 的 研究 所 出 
现 了 ， 它 只 对 5000 人 进行 了 调查 ， 根 据 调 查 结 采 他 们 判断 罗斯 福 会 胜 


出 。 这 家 研究 所 就 是 1935 年 成 立 的 美国 舆论 研究 所 (AIPO) , AYES 
基 人 是 美国 民意 调查 科学 化 的 先驱 
Gallup) 。 


MA mis (George 


在 1936 年 到 2008 年 间 ， 一 共 进 行 了 18 次 总 统 选举 ， 盖 洛 普 民意 调 
查 成 功 预测 了 16 次 ， 这 是 一 个 非常 惊人 的 成 就 。 但 是 盖 洛 普 是 

过 5000 张 问卷 就 能 击败 240 万 张 问卷 的 调查 结果 呢 ? 难 道 240 万 张 问卷 
数量 多 反而 更 不 准 吗 ? 


这 束 是 我 们 在 应 用 抽样 中 需要 注意 的 一 个 问题 ， 那 就 是 抽样 对 象 
要 更 加 有 代表 性 和 分 效 性 ， 这 样 才 会 体现 出 与 整个 样本 空间 更 为 相近 
H4 TERES, ° 
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回 性 ， 让 每 一 箱 、 每 一 包 都 有 相等 的 机 会 被 选中 。 而 总 统 选 举 这 种 场 
景 可 以 想见 ， 投 票 人 里 面 泗 盖 了 大 量 的 不 同 阶 级 、 不 同 种 族 、 不 同 利 
益 团 体 的 对 新 总 统 期 望 的 价值 取 同 ， 那 么 在 设计 抽样 对 象 时 束 应 该 考 
虑 按照 人 口 比 例 进 行 缩小 并 兼顾 各 种 利 苍 团体 的 样本 才 会 更 为 准确 ， 
如 白人 、 黑 人 的 比例 ， 不 同 州 的 人 口 比 例 ， 工 人 、 中 产 阶级 、 资 本 家 
的 比例 ， 男 、 女 性 的 比例 等 因素 。 


随 着 计算 机 存储 能 力 和 计算 能 力 的 不 断 增 强 ， 全 样本 空间 的 统计 
和 计算 的 成 本 变 得 越 来 越 低 ， 所 以 抽样 统计 现在 更 多 地 应 用 于 一 些 对 
于 样本 收集 和 存储 成 本 过 高 的 领域 ,或 者 由 于 种 种 原因 不 能 做 全 样本 
收集 的 情况 ， 如 食品 检验 、 人 口 统计 、 大 气 /水 污染 检验 等 领域 。 


抽样 的 合理 运用 在 人 们 生产 中 会 发 挥 其 "轻巧 "的 作用 ， 对 于 那些 
只 需 少量 看 统计 效果 ， 快 速 出 反馈 的 试探 性 操作 来 说 ， 抽 样 应 该 是 再 
合适 不 过 的 高 效 、 低 成 本 的 操作 方式 了 。 


[1] 图 片 来 目 百 度 图 库 。 
[2] 图 片 来 自 百 度 图 库 。 
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前 面 的 章节 曾经 提 到 过 一 个 概念 ， 叫 做 “ 正 态 分 布 ”。 


ESS (Normal Distribution) 又 名 高 斯 分 布 (Gaussian 
Distribution) ， 是 一 个 在 数学 、 物 理 及 工程 等 领域 都 非常 重要 的 概率 分 
布 ， 在 统计 学 的 许多 方面 有 着 重大 的 影响 力 。 


约翰 .卡尔 : 弗 里 德里 希 :高 斯 (Johann Carl Friedrich Gauss) 是 德国 
著名 数学 家 、 物 理学 家 、 天 文学 家 、 大 地 测量 学 家 ， 他 是 近代 数学 黄 
基 者 之 一 ， 被 认为 是 历史 上 最 重要 的 数学 家 之 一 ， 并 享有 “数学 王 
子 ” 的 美誉 。 他 的 头像 也 被 印 在 以 前 德国 的 官方 货 f Ee] 552104 
wE, 4-22 H aN ORE Soe ER ETSI 9 有 一 种 说 法 认为 ， 
高 斯 和 阿 基 米 德 、 牛 顿 并 列 为 世界 三 大 数学 家 一 一 虽然 这 个 说 法 没有 
得 到 书面 和 史料 方面 的 支持 。 但 是 客观 地 评价 ， 高 斯 、 阿 基 米 德 、 牛 
顿 这 3 位 科学 家 对 于 数学 发 展 的 贡献 确实 都 是 丰碑 性 质 的 ， 这 点 毋庸 置 
疑 。 


先 来 看 一 下 高 斯 分 布 的 概率 密度 函数 : 


l ^ (x- uy 
f(s) =a- x | 
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Al4-22 10 德国 马克 上 的 高 斯 头像 


图 4-23 所 示 为 高 斯 密度 函数 的 函数 曲线 。 


34.1% | 34.1% 


先 介 绍 一 下 什么 是 概率 密度 函数 ， 大 家 知道 ，y=f (x) 这 种 表达 
式 是 以 前 在 中 学 学 习 函 数 时 使 用 的 一 种 表达 式 ， 表 示 男 数值 y 和 自 变量 
KARR, f (x) 展开 之 后 就 具体 解释 了 x 参与 运算 的 过 程 。 而 概率 密 
度 实 际 指 的 是 y=f (x) ，x 是 样本 特性 自 变 量 ，y 是 x 在 这 个 样本 特性 上 
的 数量 比例 。exp 指 的 是 自然 常数 e 的 需 函 数 ， 即 e 的 多 少 次 需 的 概念 (e 
是 一 个 无 理 数 ， 也 就 是 无 限 不 循环 小 数 ，ex2.71828...) 。 这 个 函数 的 
峰值 在 x=p 的 位 置 ， 此 时 对 应 的 函数 值 y 为 1 V270 。 其 实 这 里 样本 数量 
的 计算 用 的 是 定 积分 的 定义 ， 即 整个 函数 曲线 在 其 下 方 围 住 的 与 y=0 
(x 轴 ) 所 围 成 的 面积 占 比 。 它 在 x=p 左 右 两 侧 的 函数 是 对 称 的 ，x 在 p- 
o 和 ph+o 之 间 的 样本 数量 占 到 整个 样本 数量 的 68.2%，x 在 h-20 和 p+20 之 
间 的 样本 数量 占 到 整个 样本 数量 的 95.4%，x 在 上 -3c 和 h+3c 之 间 的 样本 
数量 占 到 整个 样本 数量 的 99.6% 。 


高 斯 分 布 作为 分 布 特性 的 一 种 ， 首 先是 用 来 描述 统计 对 象 的 ， 如 
果 统 计 对 象 的 分 布 特性 符合 高 斯 分 布 ， 那么 所 有 和 针对 高 斯 分 布 的 定理 
和 “经 验 值 ” 束 能 够 直接 套用 。 而 高 斯 分 布 本 里 在 自然 界 的 应 用 十 非常 
广泛 的 ， 用 一 句 话 解释 高 斯 分 布 所 表现 的 分 布 特点 就 是 “一 般 般 的 很 


多 ， 极 端的 很 少 ”。 


这 里 举 一 个 具体 的 例子 ， 假 如 对 某 一 地 区 的 男性 身高 做 了 一 个 随 
机 抽样 ， 一 共 1000 人 ， 结 果 发 现 他 们 的 身高 是 一 个 h=175cm 的 高 斯 分 


fi, o-10cm » BABI, ORR MER CL EE BEAT WERL YE 2C 
样 检 查 的 结果 了 ， 而 以 下 结论 也 就 随 之 成 立 (图 4-24) 。 


身高 165~175cm 的 人 (大约) 有 341 名 。 


身高 175~185cm 的 人 (大 约 ) 有 341 名 。 


身高 155~165cm 的 人 (大 约 ) 有 136 名 。 


身高 185~195cm 的 人 (大 约 ) 有 136 名 。 


身高 145~155cm 的 人 (KAI) 有 21 名 。 


身高 195~205cm 的 人 〈 大 约 ) 有 21 名 。 


"0.008 Ma 
=| 


图 4-24 1000 人 的 身高 分 布 


这 些 数量 基本 已 经 泗 盖 了 统计 总 人 数 的 99.6%。 需 要 注意 的 是 ， 根 
据 统 计 的 情况 在 不 同 的 条 件 Fp 和 go 的 值 可 能 会 不 同 。 


H 较 大 ， 则 整个 画 数 图 像 的 中 轴 癌 右 挪动 比较 多 。 

H 较 小 ， 则 函数 图 像 的 中 轴 同 左 挪动 比较 多 。 

o 较 大 ， 则 整个 曲线 绵延 比较 长 ， 整 个 坡度 显得 平缓 。 
0 较 小 ， 整 个 曲线 罕 而 立 陡 。 


符合 高 斯 分 布 特性 的 对 象 是 非常 多 的 ， 平 时 也 会 看 到 很 多 这 种 “一 
般 般 的 很 多 ， 极 端的 很 少 ” 的 现象 。 如 平时 小 区 里 的 汽车 ， 其 中 中 档 的 
比较 多 ， 高 级 的 比较 少 ， 特 别 破 的 也 比较 少 (在 不 同 档次 的 社区 注意 | 
可 能 会 不 同 ， 就 是 平均 水 平 在 不 同 小 区 之 间 可 能 偏差 很 多 ， 高 档 小 区 
的 车 普 裔 比较 好 ，p 束 比较 大 ;低档 小 区 的 车 普遍 不 大 好 ，p 束 比较 
小 ) 。 如 某 小 区 如 图 4-25 所 示 ， 大 部 分 人 买 的 汽车 都 30 万 左右 ， 价 格 高 
的 和 低 的 汽车 数量 都 随 着 与 30 万 的 距离 变 大 而 逐渐 变 少 。 


我 们 平时 接触 的 人 里 ， 智 慧 一 般 的 人 很 多 ， 非 常 聪明 的 人 较 少 ， 
非常 轧 笨 的 人 也 较 少 (在 一 些 大 公司 或 者 重点 学 校 里 虽然 整体 的 聪明 
程度 提高 ， 但 是 还 是 存在 这 个 小 范围 内 的 高 斯 分 布 ， 即 bp 比较 偏 右 ， 而 
0 比较 小 ) 。 如 某 公 司 全 体 员工 集体 做 了 一 次 IQ 测 试 (AM), oU 
试 结 采 表 明智 商 在 110 附 近 的 人 最 多 ， 智 商 在 90 到 100 之 间 的 较 少 ， 同 


时 智商 在 120 到 130 之 间 的 较 少 ， 而 智商 在 80 到 90 之 间 以 及 130 到 140 之 
间 的 就 更 少 了 (图 4-26) 。 这 也 符合 人 们 一 般 性 的 认 知 。 
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图 4-25 汽车 的 价格 与 数量 关系 


t 0.05 [+ 
Eg 
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F 0.04 


图 4-26 ”智商 与 人 数 关系 
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和 特别 富裕 的 人 较 少 ， 但 是 他 们 在 地 域 上 的 分 布 和 职业 类 别 上 的 分 布 
可 能 可 不 那么 均 习 了 。 诸 如 此 类 的 例子 还 有 很 多 。 


高 斯 分 布 有 什么 用 呢 ? 


首先 刚才 说 过 ， 如 果 在 统计 过 程 中 发 现 一 个 样本 呈现 高 斯 分 布 的 
特性 ， 只 需要 把 样本 总 数量 、h 和 a 表 述 出 来 ， 就 已 经 能 够 形成 一 个 完 
整 的 画面 感 了 。 这 对 人 们 描述 对 象 是 有 很 大 帮助 的 。 

还 有 一 个 好 处 ， 殉 是 我 们 发 现 了 这 样 一 个 特性 以 后 ， 在 生产 制 
造 、 商 业 等 领域 会 有 很 多 对 应 性 的 用 法 能 够 减少 不 必要 的 投入 或 损 
in 


例如 ， 在 设计 一 款 服 装 后 ，S/M/L/XL 这 些 号 码 怎么 设计 比较 合理 
We? 设计 完了 制造 多 少 比较 合理 呢 ? 这 时 就 可 以 在 抽样 后 在 高 斯 分 布 
曲线 上 找到 这 些 合适 的 点 。 既 然 J-o 和 p+o 之 间 已 经 占 68.2% 了 ， 那 么 如 
果 没 有 足够 的 预算 或 者 精力 ， 可 以 只 先 壬 斌 做 一 个 以 p 为 标准 的 板式 ， 
针对 一 部 分 人 打 板 做 市 场 推 广 。 因 为 再 做 h-o 和 p+o 这 两 个 如 此 不 同 的 
板式 ， 打 板 成 本 将 会 再 提高 2 倍 ， 但 是 增益 仅 有 不 到 50% (这 从 概率 密 
度 函 数 上 就 可 以 看 出 来 ) 。 这 其 实 就 是 一 种 针对 市 场 迎合 的 分 析 和 党 
斌 一 一 优先 做 那些 受众 情况 最 一 般 、 人 数 最 集中 的 部 分 。 


再 如 ， 和 第 会 听 到 “二 八 法 则 ?这 种 说 法 一 一 在 不 同 的 场景 里 这 可 
能 是 高 斯 分 布 的 一 种 形式 。 假 设 正在 经 营 一 家 游戏 公司 ， 公 司 有 一 款 
刚 起 步 不 久 的 产品 A 游戏 ，A 游 戏 有 1 万 用 户 ， 如 末 想 做 这 一 球 游 戏 的 
用 户 拓展 工作 应 该 怎么 去 考虑 呢 ? 或 许可 以 尝试 这 样 : 先 看 看 这 1 万 用 
尸 中 每 个 用 户 平 均 在 游戏 里 充值 伦 多 少 钱 ， 做 一 个 排名 。 不 伦 钱 玩 的 
人 会 不 少 ， 还 有 一 些 花 极 多 的 钱 来 玩 游戏 的 玩家 ， 中 间 的 是 中 坚 力量 
一 一 用 户 数量 大 ， 每 个 人 花费 的 额度 适中 ， 持 续 周 期 较 长 ， 这 样 的 一 
群 人 更 值得 关注 。 对 于 这 些 用 户 ， 如 末 能 够 知道 他 们 加 入 游戏 的 渠道 
的 分 布 比例 ， 就 有 理由 相信 这 些 梁 道 的 特点 和 它们 和 覆 蓄 这 些 用 户 的 特 
点 是 有 相关 性 的 。 例 如 ， 这 些 表现 活跃 的 用 户 冤 竟 是 经 由 在 大 学 校园 
里 做 宣传 活动 加 入 的 ， 还 是 由 于 在 某 些 游戏 门户 网 站 发 的 广告 加 入 
的 ， 还 是 通过 某 些 免 费 软件 的 推广 渠道 加 入 的 。 那 么 如 琳 想 扩大 这 痢 
分 用 户 的 数量 可 以 对 应 地 加 天 这 部 分 渠道 的 流量 。 至 少 直 观 上 看 ， 这 
比 言 目地 进行 全 方位 立体 交叉 的 广告 投放 效果 要 好 。 


[1] 来 源 于 百度 图 库 。 


49 汝 松 分 布 


泊 松 (Poisson) 分 布 是 一 种 统计 与 概率 学 中 常见 的 离散 概率 分 
布 ， 由 法 国 数 学 家 西 莫 恩 : 德 尼 - 泊 松 (Simeon-Denis Poisson) (图 4-27 
(1) 在 1838 年 发 表 。 泊 松 分 布 是 概率 论 中 最 重要 的 概念 之 一 。 


泊 松 分 布 的 概率 函数 如 下 : 


- 


P(X =k)= A JP £0193. 


泊 松 分 布 的 参数 和 是 单位 时 间 (或 单位 面积 内 随机 事件 的 平均 发 
生 率 。 泪 松 分 布 适 合 于 描述 单位 时 间 内 随机 事件 发 生 的 次 数 。 其 中 ki! 
是 指 k 的 阶乘 ， 也 就 是 kx (k-1) x (k-2) x.…x2x1，k 取 非 负 整数 。 泊 
松 分 布 概率 密度 函数 如 图 4-28 所 所 示 。 


P(X-K) 
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还 是 根据 认识 高 斯 分 布 的 经 验 来 认识 一 下 泊 松 分 布 。 也 就 是 说 在 
一 个 标准 的 时 间 里 ， 发 生 这 件 事 的 发 生 率 是 和 次 (注意 ， 这 是 一 个 具体 
的 次 数 ， 不 是 一 个 概率 值 ) ， 那 发 生 k 次 的 概率 是 多 少 。 


泊 松 分 布 适用 的 事件 需要 满足 以 下 3 个 条 件 。 
(1) 这 个 事件 是 一 个 小 概率 事件 。 

(2) 事件 的 每 次 发 生 是 独立 的 不 会 相互 影响 。 
(3) 事件 的 概率 是 稳定 的 。 

下 面 举 一 个 公共 汽车 到 站 的 例子 。 


假设 在 一 个 公共 汽车 站 上 有 很 多 不 同 线路 的 公交 车 ， 而 且 平均 每 5 
分 钟 会 来 2 辆 公交 车 。 求 5 分 钟 内 来 5 辆 公交 车 的 概率 有 多 大 。 


这 里 和 为 2，k 为 5。 


2 à 
P(X=k=5)= 7— — — —x2.718 28 = 0.361 


5xAx3x2xl 
概率 仅 3.61% ° 
还 有 一 个 比较 经 典 的 例子 : 已 知 有 一 个 书店 ， 售 卖 许 多 图 书 ， 其 


中 工具 书 销售 一 直 较 为 稳定 而 且 数量 较 少 〈 概 率 较 小 的 事件 ) ， 新 华 
字典 平均 每 周 卖 出 4 套 。 作 为 书店 老板 ， 痢 华 字 典 应 该 备 多 少 本 为 宜 ? 


所 有 生产 中 解决 的 都 古 “为 家 ”的 问题 ， 也 束 古 做 投入 产 出 的 权 
衡 。 本 例 中 ， 在 没有 做 计算 之 前 我 们 先 想 一 下 ， 如 果 备 货 过 少 ， 那 么 
每 周 很 可 能 都 会 有 用 户 “ 流 失 ” 抒 去 买 别 的 书店 的 新 华 字 典 或 者 由 于 无 
法 满足 客户 的 购书 需求 而 引起 客户 的 忠诚 度 下 降 等 问题 ， 而 如 果 备 货 
过 多 ， 那 么 就 会 占用 大 量 的 库存 空间 导致 库存 成 本 过 高 。 


这 是 一 个 典型 的 泪 松 分 布 问 题 ， 因 为 在 条 件 投 述 里 它 古 满足 这 二 


个 前 秆 条 件 的 。 这 里 和 是 4， 求 k 十 多 少 “ 为 定 ”。 


这 里 需要 用 到 “ 素 积 概率 ”， 其 实 * 款 积 概率 ”的 用 法 在 前 面 高 期 分布 
的 研究 中 已经 用 过 了 ， 束 是 指 目 变 量 取 值 在 一 个 区 间 内 的 所 有 概率 的 
加 和 ， 在 高 斯 分 布 的 例子 里 从 h-a 到 ht+a 之 间 的 目 变 量 取 值 会 洱 盖 68.2% 
的 样本 空间 ， 这 就 是 “累积 概率 "， 即 有 68.2% 的 样本 都 存在 于 x 的 h-o 到 
H+0 的 区 间 内 。 


在 这 个 例子 里 ， 也 求 一 下 累积 概率 。 由 于 是 离散 概率 函数 ， 可 以 
先 求 出 k 所 对 应 的 各 个 概率 的 大 小 ， 再 计算 累积 概率 的 大 小 。 


P(X=k=1)= 4! + (1) + 2.71828'-7.3396 
P(X=k=2)= 4 + (2x 1) + 2.71828'-14.796 
P(X=k=3)= 4 + (3 X 2 X 1) + 2.71828°=19.5% 
4^ 

P(X-k-4)y-. — — — x2.718:28'* = 19.5% 

4x3x2x1l 
P(X=k=5)= 4 + (5X4X3X2X 1) * 2.71828'-15.696 
P(X=k=6)= 49 - (6X 5 X4X3X2X 1) 4 2.71828'-10.496 
P(X=k=7)= 4' - (7X 6X 5X4X3X2X1) 7 2.71828'-5.9594 
P(X=k=8)= 4* - (8X 7X 6X 5XA4X3X2X 1) - 2.71828'-2.9896 
P(X=k=9)= 4° - (0X 8X 7X 6X 5X4X3X2X 1) - 2.71828'-1.3296 


对 应 的 表格 如 表 4-1 所 示 。 


表 4-1 不 同 k 值 对 应 的 累积 概率 


对 应 的 概率 图 如 图 4-29 所 示 。 


表 4-1 表 示 k 的 取 值 ， 即 每 周 备货 多 少 本 新 华 字典 ， 以 及 销售 周 有 多 
大 概率 会 有 k 本 的 销售 数量 。 最 后 一 列 的 素 积 概率 指 的 是 备货 为 k 本 的 
情况 下 ， 会 有 多 少 个 销售 周 的 销售 数量 小 于 等 于 备货 数量 。 这 里 只 算 
到 k=9 的 情况 ， 其 他 情况 读者 有 兴趣 可 以 目 己 再 算 。 图 4-9 所 示 的 概率 


图 中 ， 横 轴 为 次 数 Kk， 纵 轴 为 概率 %。 因 为 k 是 离散 值 所 以 画 成 离散 的 点 
即 可 ， 在 有 的 资料 上 会 用 曲线 把 每 个 点 顺序 连接 起 来 ， 这 种 画 法 也 没 
有 问题 ， 只 要 读者 知道 k 的 取 值 为 正 整 数 即 可 。 


具体 看 k=5， 新 华 字 典 备货 为 5 件 的 情况 下 ， 大 概 有 76.63% 的 销售 
周 不 会 有 供不应求 的 情况 ， 这 些 销售 周 内 会 有 7.33% 的 销售 周 卖 出 1 
本 ，14.7% 的 销售 周 卖 出 2 本 ，19.5% 的 销售 周 卖 出 3 本 ，19.5% 销 售 周 卖 
出 4 本 ，15.6% 销 售 周 卖 出 5 本 ， 辟 之 不 会 超过 5 本 ， 也 就 是 一 年 的 52 周 
里 有 40 周 可 以 满足 消费 者 需求 ， 还 有 12 周 会 脱销 。 
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图 4-29 ”对 应 的 概率 周 


当选 择 k=7 时 ， 新 华 字 典 备货 为 7 件 的 情况 下 ， 大 概 有 92.98% 的 销 
售 周 不 会 有 供不应求 的 情况 ， 也 束 是 一 年 的 52 周 里 有 48 周 可 以 满足 消 
费 者 需求 ， 还 有 4 周 会 脱销 。 


在 误 松 分 布 的 例子 里 ， 可 以 看 到 一 个 现象 ， 束 是 k 每 增加 1， 在 k 人 小 
于 和 的 时 候 ， 素 积 画 数 增 加 是 很 快 的 ， 而 且 每 次 增加 的 量 比 上 一 次 增加 
NRA; 而 在 k 越 过 之后， 虽然 开始 还 在 增加 ， 但 是 每 次 增加 的 量 比 
上 一 次 增加 的 要 少 ， 然 后 越 来 越 少 。 所 以 这 个 技巧 在 解决 类 似 的 问题 
时 请 根据 实际 情况 其 酌 采 纳 。 


[1] 图 片 来 源 于 百度 图 库 。 
[2] 图 片 来 源 于 维基 百科 。 


4.10 人 努 利 分 布 


伯 努 利 分 布 (Bernoulli Distribution) 是 一 种 离散 分 布 ， 在 概率 学 中 
非常 常用 ， 有 两 种 可 能 的 结果 ，1 表 示 成 功 ， 出 现 的 概率 为 p (其 中 
0<p<1) ; 0 表示 失败 ， 出 现 的 概率 为 q=1-p。 这 很 好 理解 ， 除 去 成 功 都 
是 失败 ，p 是 成 功 的 概率 ， 概 率 100% 减 去 p 就 是 失败 的 概率 。 


图 4-30 FER - BRI 


伯 努 利 分 布 是 为 纪念 瑞士 科学 家 雅 各 布 : 伯 努 利 (Jakob Bernoulli) 
(图 4-30 11) 而 命名 的 。 这 里 值得 一 提 的 是 伯 努 利家 族 。 瑞 士 的 伯 努 
利家 族 (也 译作 贝 努力 ) 是 一 个 很 伟大 的 家 族 ， 一 个 家 族 3 代 人 中 产生 
了 8 位 科学 家 ， 后 裔 有 不 少 于 120 位 被 人 们 系统 地 追溯 过 ， 他 们 在 数 


"EO ARRAS > BOK > TIBIAE ` PEE MA CASA MEA 
PA, AWEZE H TH 。 


伯 努 利 分 布 的 分 布 律 如 下 : 
[pone] 
l-p n-0]| 
看 上 去 像 个 分 段 函数 是 不 是 ， 它 也 可 以 写作 
Pln)=p"(-p)™ 


这 两 个 写法 其 实说 的 是 一 回 事 ， 你 目 己 可 以 把 n=0 和 n=1 分 别 市 进 
去 算 一 算 。 


P. 


伯 努 利 分 布 的 应 用 需 满足 以 下 条 件 。 


(1) 各 次 试验 中 的 事件 是 互相 独立 的 ， 每 一 次 n=1 和 n=0 的 概率 分 
别 为 p 和 q。 


(2) 每 次 试验 都 只 有 两 种 结果 ， 即 n=0， 或 n=1。 


如 采 不 满足 这 两 个 条 件 ， 则 分 布 不 是 伯 努 利 分 布 。 


满足 伯 努 利 分 布 的 样本 有 一 个 非常 重要 的 性 质 ， 即 满足 下 面 公 
xu 


P(X = k) = c E p'ü- pj** 


pi- 


布 ， 
AG 


我 们 解释 一 下 这 个 公式 的 含义 。 
其 中 ，X 指 的 是 试验 的 次 数 ，G, 指 的 是 组 合 ， 也 就 是 #1( UO! 
P)” 就 是 p 的 n 次 害 与 (1-p) 的 n-k 次 索 的 乘积 。 


这 个 公式 表示 ， 如 果 一 个 试验 满足 Pm)=p"(4-p)” 的 伯 努 利 分 
那么 在 连续 试验 n 次 的 情况 下 ， 出 现 n=1 的 情况 发 生 恰好 k 次 的 概率 
'ü-p'* 。n=1 就 是 对 应 概率 为 p 的 情况 。 


下 面 用 一 个 小 例子 来 说 明 。 


例如 ， 张 三 参加 英语 雅思 考试 ， 每 次 考试 通过 的 概率 为 113， 不 通 


过 的 概率 为 23。 如 果 他 连续 考试 4 次 ， 那 么 恰好 通过 2 次 的 概率 为 多 


aye 


在 这 个 例子 里 可 以 比较 容易 看 到 ，P=1/3，n=4，k=2。 代 入 公式 : 


(4-2) 


2 Br | B qx: 还 8 
Cx [I=] 2 = yx Hy = = 
\3 | E. AxI 9 4% — 2j 


i 


因此 概率 为 8/27。 


这 个 例子 也 可 以 用 排列 组 合 来 计算 。 一 共 4 次 考试 ，2 次 通过 , 一 


共有 6 种 情况 ， 如 表 4-2 所 示 。 


表 4-2 ”通过 的 情况 


通过 情况 } 1 } i 通过 情况 | 第 1 次 


试 着 求 每 次 的 概率 ， 情 况 1， 即 第 1 次 通过 且 第 2 次 通过 
通过 且 第 4 次 不 通过 。 这 里 千 万 不 要 漏 挥 后 面 两 个 条 件 ， 后 面 两 次 必须 
征 不 通过 ， 人 否则 条 件 束 和 公式 不 匹配 了 。 


那么 ， 第 1 次 通过 ， 概 率 为 13， 第 2 次 通过 ， 概 率 为 3， 第 3 次 不 
通过 ， 概 率 为 23， 第 4 次 不 通过 ， 概 率 为 223。 这 4 个 条 件 都 发 生 的 概率 
为 

]1 1.2 2 4 
RT NCC mE ES — 
3 3 S uw Mi 


同 理 ， 情 况 2 到 情况 6 的 概率 都 是 4/81。 所 以 最 后 的 结果 是 


对 于 满足 伯 努 利 分 布 的 试验 来 说 ， 用 古典 概 型 进行 计算 显得 复杂 
和 人 繁琐， 尤其 是 n 和 k 比 较 大 的 时 候 用 古典 概 型 来 做 吕 太 不 方便 了 。 


伯 努 利 分 布 的 应 用 场景 其 实 远 比 这 个 例子 丰富 ， 读 者 有 兴趣 可 以 
再 继续 寻找 其 他 题目 试 解 。 


[1] 图 片 来 目 维基 百科 。 
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在 前 4 章 里 学 习 了 一 些 统计 和 概率 的 基本 知识 ， 如 建立 指标 ， 古 使 
用 加 和 值 ， 还 是 使 用 加 权 平 均值 ， 在 制作 报表 的 时 候 是 否 应 该 适当 使 
用 指标 的 同比 、 环 比 进行 对 比 ， 是 否 应 该 适时 地 使 用 抽样 来 进行 用 户 
调研 ， 是 否 可 以 在 报表 中 加 入 一 些 分 布 图 来 让 阅读 者 有 更 直观 性 的 认 
识 ， 是 否 能 用 排列 组 合 的 方式 算出 一 些 事件 在 生产 中 发 生 的 概率 .…… 


统计 和 分 布 这 个 部 分 古 统 计 和 概率 学 的 基础 部 分 ， 这 些 知识 外 


来 解 哪些 题 ? 能 够 用 在 什么 场合 ? 


ES 


要 回答 这 些 问题 需要 和 理解 统计 和 分 布 本 号 的 意义 ， 它 们 是 为 描 
述 大 量 样 本 的 宏观 样 态 而 出 现 的 ， 完 其 根本 也 是 描述 为 目的 ， 它 不 是 
算法 ， 所 以 通常 无 法 直接 拿 来 解 题 ,但 是 它 能 用 最 简 党 的 方式 给 我 们 
带 来 大 量 样本 宏观 样 态 下 的 画面 感 ， 更 为 直观 。 至 于 使 用 的 场合 ， 如 
果 描 述 的 对 象 是 大 量 的 样本 ， 那 么 吉 用 简洁 的 方式 描述 它 的 宏观 状态 
的 ， 即 使 用 统计 和 分 布 中 的 描述 方法 。 分 布 可 以 用 来 建 模 ， 也 可 以 用 
来 解决 生产 生活 中 的 问题 ， 上 述 例子 束 是 很 好 的 样本 ， 读 者 可 以 试 着 
再 去 找 一 些 案 例 ， 只 要 满 足 分 布 的 前 置 条 件 都 是 可 以 套用 分 布 的 结论 
和 推广 使 用 的 。 


第 5 草 ”指标 


5.1 什么 十指 标 


指标 ， 顾 名 思 义 ， 就 是 指定 的 标准 。 词 典 里 的 解释 是 “衡量 目标 的 
单位 或 方法 ”。 指标 整 是 为 了 描述 一 些 对 象 的 状态 而 制定 出 来 的 标准 ， 
在 日 前 生产 生活 中 有 着 非常 广 沁 的 应 用 。 


如 果 你 参加 工作 已 经 有 一 段 时 间 了 ， 那 么 对 于 指标 可 能 不 会 太阳 
生 ， 甚 至 在 上 学 的 时 候 我 们 身边 同样 有 过 各 种 指标 。 


我 们 上 学 的 时 候 ， 每 门 功课 的 期 末 考 试 分 数 为 百分制 ， 即 90 分 为 
优秀 ，60 分 为 及 格 ， 不 及 格 束 留级 。 这 就 古 一 套 人 简单 但 是 完整 的 指标 
体系 (图 5-1) °F, “指标” 就 是 期 末 考 试 分 数 , “百分制 "就 是 指标 
的 取 值 范围 ，“90 分 为 优秀 ，60 分 为 及 格 ， 不 及 格 束 留级 束 是 指标 满足 
程度 的 奖惩 手段 。 


看 似 简单 的 一 个 指标 定义 却 完成 了 一 个 完整 的 指标 检验 闭环 。 在 
这 个 闭环 里 ， 学 生 束 是 指标 负担 的 主体 ， 学 生 为 了 达到 指标 而 学 习 ， 
学 习 的 情况 用 指标 量化 表示 ， 基 后 根据 量化 的 指标 进行 奖惩 。 有 了 这 
个 指标 体系 ， 学 校 的 名 声 、 教 师 的 水 乎 高 低 、 学 生成 绩 水 平 的 优 劣 都 
有 了 量化 的 准绳 ;这 为 由 此 产生 的 一 系列 “运营 ?市 来 了 驱动 能 


里 然 我 们 一 直 非 常 不 情愿 把 教育 体系 当 作 运营 的 对 象 ， 但 我 们 却 不 得 
不 把 教育 体系 的 学 校 作 为 运营 的 对 象 。 


学 生成 绩 有 了 高 低 ， 避 ® 能 有 不 同 的 普 升 途径 ， 教 师 的 水 平 有 了 高 
低 ， 殊 能 有 评级 评奖 ， 新 金 浮动 ， 学 校 的 名 声 有 了 体现 ， 束 能 有 口碑 
和 好 坏 的 差别 ， 吸 引 师 资 和 学 生 的 差别 以 及 赞助 费 的 差别 。 这 些 是 我 
们 在 设置 考试 的 时 候 束 精心 设计 出 来 的 吗 ? 未 必 ， 这 古 由 考试 这 个 指 
标 体系 目 然而 然 衍 生出 来 的 一 系列 游戏 规则 。 


Ed, oriri 
WERE RIP .... 


图 5-1 学 生成 绩 指标 体系 


再 如 企业 里 有 不 同 的 岗位 ， 其 中 销售 岗位 是 最 容易 被 赋予 指标 
的 ， 如 “月 销售 额 *”、“ 年 回 款 率 * 等 。 其 中 “月 销售 额 "? 对 于 一 个 销售 人 
员 来 说 是 最 容易 让 人 想到 的 一 种 指标 。 一 个 销售 人 员 是 不 是 “优秀 ”, 
古 不 是 “有 人 能力"、“ 有 价值 >?， 最 简单 的 束 是 用 卖 了 多 少 价值 的 产品 来 
衡量 。 而 “年 回 款 率 ” 指 标 是 在 “月 销售 额 ” 指 标 运作 的 前 所 下 才 会 有 
的 ， 指 每 年 的 销售 额 究 范 有 多 少 是 真正 可 以 部 现 的 。 因 为 在 很 多 企业 
里 ， 产 品 销售 有 一 些 特殊 的 规则 ， 如 客户 先 拿 从 后 付款 ， 先 签 框架 合 
同 后 交易 。 所 以 “月 销售 额 " 有 可 能 会 由 于 具体 生产 细 证 上 操作 的 问题 
使 得 这 个 孤立 指标 的 意义 不 够 丰满 ， 还 需要 其 他 指标 来 补充 。 毕 竞 ， 
找 个 光 拿 货 不 给 钱 的 客户 ， 销 售 额 再 多 也 不 算 销售 人 员 有 人 能耐。 企业 
里 的 指标 运 宫 类 别 比 学 校 丰 富 得 多 ， 有 了 这 些 指标 ， 企 业内 部 可 以 进 
行人 员 的 左 迁 和 右 迁 ， 刺 激 企业 民 性 发 展 ， 这 已 经 在 很 多 优秀 的 企业 
中 得 到 验证 。 


再 如 体检 时 的 化 验 项 目 ， 如 眼睛 近视 度数 、 吴 高 、 体 重 、 心 跳 、 
血压 、 血 糖 浓 度 、 血 小 板 浓度 .…... 以 及 尿酸 浓度 、 各 种 转氨酶 浓度 等 
专业 的 指标 。 小 小 一 张 化 验 单据 ， 多 则 百 余 项 ， 少 的 只 有 一 二 十 项 ， 
已 经 把 人 的 号 体 状 况 描 述 得 即 简洁 又 具体 ， 这 瑟 是 指标 的 力量 。 

如 采 没 有 指标 我 们 的 体检 应 该 怎么 做 呢 ? 那 体检 报告 可 能 要 写成 
Tg ASCHER TRL D. MAERA, BUT AR, Tabs HT A 
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也 不 知道 究竟 是 多 粘 稠 ， 炎 症 多 轻微 或 多 严重 ， 心 跳 得 有 多 快 。 更 关 
键 的 是 ， 下 一 次 体检 描述 完了 还 是 这 样 一 堆 文 字 ， 那 就 更 没有 办 法 做 
每 次 体检 之 间 的 比较 了 ， 谁 知道 这 次 “心跳 听 起 来 跳 得 比较 快 " 和 上 次 
的 “心跳 听 起 来 跳 得 比较 快 ?哪个 更 快 一 些 ， 是 更 快 了 还 是 更 慢 了 (图 
5-2) 。 如 果 连 针对 不 同 器 官 的 指标 分 类 都 不 存在 ， 那 体检 就 显得 更 滑 
稳 ， 甚 至 检查 了 半天 结果 只 能 说 “看 上 去 很 健康 “看 上 去 好 像 不 太 健 

康 ”， 这 哪里 叫 体检 ， 连 街 边 5 块 钱 一 次 的 相 面 测字 
检 想 想 也 是 醇 了 。 


体检 概 告 
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图 5-2 没有 指标 的 体检 报告 


指标 给 我 们 市 来 的 便利 是 非常 明显 的 ， 这 也 束 是 在 各 行 各 业 广 泛 
使 用 指标 的 重要 原因 。 

在 指标 建立 的 过 程 中 ， 我 们 实际 做 的 是 一 个 建 模 的 过 程 ， 围 绕 建 
模 要 做 很 多 辅助 工作 。 


在 综合 类 或 者 理工 类 大 学 会 有 一 | 选修 课 叫 作 “ 数 学 建 模 ”"， 我 们 
在 书店 里 也 能 找到 关于 数学 建 模 的 书籍 。 这 里 的 建 模 和 数学 建 模 的 总 
思 相 近 ， 至 少 目 的 是 相近 的 。 我 们 要 做 的 建 模 工作 实际 上 是 抽象 在 生 
产生 活 中 的 各 种 数字 ， 并 党 试 建立 数字 和 数字 之 间 的 逻辑 关系 假说 ， 
并 通过 分 析 手 段 来 进行 逻辑 天 系 的 调整 ， 最 终 让 建立 的 这 种 逻辑 关系 
和 客观 事实 一 致 。 这 个 逻辑 关系 可 能 驶 是 这 些 数 字 之 间 的 加 减 乘 除 或 
贿 指 对 函数 等 。 


使 用 数学 建 模 的 手段 来 建立 数据 之 间 逻 辑 关系 的 例子 有 很 多 ， 生 
物 学 家 可 能 会 观测 一 个 地 区 的 温度 、 温 度 以 及 当地 某 种 微生物 种 群 数 
量 ， 进 而 得 到 一 个 3 种 变量 之 间 的 逻辑 关系 ;社会 学 家 可 能 会 通过 观察 
一 个 地 区 的 收入 水 平平 均值 、 标 准 差 和 犯罪 率 来 做 一 个 模型 描述 ， 描 
述 犯罪 率 可 能 由 收入 水 平平 均值 和 标准 差 这 两 个 值 的 一 些 运算 逻辑 来 
Fi - 


我 们 平时 在 生产 生活 中 所 做 的 各 种 数值 的 统计 工作 ， 并 把 它们 定 
义 成 指标 ， 再 用 这 些 指 标的 运算 组 合 来 定义 痢 的 指标 ， 这 个 过 程 下 是 
一 个 建 模 的 过 程 。 这 个 模型 是 直接 对 生产 中 的 各 种 指标 数据 进行 逻辑 
解释 的 。 例 如 ， 在 制作 互联 网 广告 系统 时 ， 在 网 页 上 推送 一 个 广告 ， 
做 一 个 计数 指标 “推送 数 "， 再 做 一 个 实际 进行 广告 点 击 的 计数 指标 “点 
TA”, EXA TF: 


转化 率 = 推 送 数 * 点 击 数 


在 经 过 一 段 时 间 的 统计 后 ， 可 以 发 现 转 化 率 很 可 能 是 一 个 定 值 或 
者 征 围 绕 菜 h 值 的 正 态 分 布 。 那 么 再 进行 广告 投放 时 ， 残 能够 根据 预 
期 的 推送 数 来 做 对 应 的 点 击 数 的 预 判 ， 进 而 估算 出 收入 大 小 ， 那 么 广 
告 定价 或 者 投放 策略 调整 也 都 有 了 参考 。 


5.2 THEME 


在 现代 化 的 公司 里 ， 指 标 化 运 间 是 必 不 可 少 的 手段 。 


指标 化 运营 会 让 公司 的 每 个 人 ,不 只 是 领导 层 ， 甚 至 是 各 个 岗位 
的 各 个 工作 人 员 都 清晰 地 知道 公司 当前 所 处 的 状况 以 及 目 己 当前 的 表 
现 情 况 。 束 像 日 党 化 的 体检 ， 或 者 汽车 的 仪表 盘 那 样 一 目 了 然 。 


公司 指标 化 运营 的 好 处 显而易见 ， 对 于 老牌 公司 来 说 ， 已 经 形成 
了 比较 完备 的 指标 体系 ， 可 能 并 不 会 困惑 ， 但 是 对 于 刚 成 立 的 新 公 
司 、 新 部 门 、 新 项 目 来 说 ， 应 当 怎 样 选择 合适 的 运营 指标 呢 ? 我 们 不 
妨 从 众多 优秀 的 指标 中 寻找 一 下 这 些 指标 的 共性 。 


5.2.1 “指标 的 选 返 


我 们 先 来 看 看 在 互联 网 行业 都 有 哪些 第 用 的 指标 。 


PV (Page Views) : 页 面 浏览 数 ， 通常 指 的 是 每 天 的 点 击 数 ， 用 
户 访 问 一 次 网 站 的 页 面 就 算 一 次 PY。 如 果 说 一 个 网 站 每 天 有 100 万 
PV， 那 就 是 说 这 个 网 站 所 有 的 网 页 每 天 一 共 被 点 击 100 万 次 。 


UV (Unique Visitors) : 独立 用 户 数 (浏览 数 ) ， 通 常 指 的 是 每 
天 的 用 户 浏览 数 ， 与 PV 的 不 同 之 处 是 ， 一 个 相同 的 用 户 如 果 点 击 页 面 
10 次 ， 算 10 个 PV， 但 是 只 算 1 个 UV。 有 的 网 站 在 没有 用 户 体 系 的 情况 
下 有 可 能 会 用 独立 IP 来 代替 这 个 指标 。 


DAU (Daily Activated Users) : 日 活跃 用 户 数 ， 即 每 天 活跃 的 用 
户 数量 。 假 设 一 个 网 站 的 注册 用 户 有 100 万 ， 但 是 一 般 不 会 100 万 人 每 
天 全 数 登 录 ， 可 能 只 有 5 万 人 登录 ， 那 么 这 5 万 人 就 是 活跃 用 户 数 。 活 
跃 用户 的 定义 在 不 同 网 站 可 能 是 不 同 的 ， 只 是 一 般 习 惯 上 说 当天 登录 
过 至 少 一 次 的 用 户 就 算是 活跃 用户。 


MAU (Monthly Activated Users) : 月 活跃 用 户 数 ， 每 月 活跃 的 
用 户 数量 。 算 法 与 DAU 类 似 ， 但 是 统计 周期 是 一 个 月 。 


LTV (Life-Time Value) : 用 户 生 命 周 期 价值 ， 这 个 指标 在 游戏 
行业 里 用 得 比较 多 ， 指 的 是 在 一 个 用 户 “ 生 命 周 期 盖 -一 从 开始 玩 这 个 
游戏 ， 到 最 终 抛 弃 这 个 游戏 为 止 ， 一 共 会 为 这 个 游戏 付费 多 少 钱 。 


ARPU (Average Revenue per User) : 每 用 户 平均 收入 。 这 个 指 
标 并 不 是 用 来 评价 用 户 收入 水 平 ， 而 是 站 在 互联 网 产品 的 角度 ， 了 解 
每 年 〈 某 一 年 ) 平均 从 每 个 用 户 号 上 可 以 收入 多 少 钱 。 这 个 指标 在 互 
联网 产品 、 电 信和 运 章 产品 、 游 戏 产 品 等 很 多 领域 都 会 用 到 ， 是 一 个 很 
常用 的 指标 。 


这 些 指标 的 共性 如 下 。 


数字 化 


jk 
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因为 只 有 数字 化 才能 够 比较 ， 数 字 化 之 后 才能 参与 各 种 运算 。 想 想 刚 
刚 我 们 在 体检 的 例子 里 说 的 那些 奇怪 的 情况 惑 知道 数字 化 有 多 人 么 重要 
[fe 


2. 易 衡量 


指标 所 衡量 的 对 象 一 定 是 相对 比较 容易 衡量 出 来 的 。 上 述 指标 都 
具有 这 个 特性 ， 如 PV 数 ， 在 访问 日 志 里 用 以 下 语句 描述 : 


SELECT COUNT | 


FROM 
VIEW LOGS 
WHERE VISIT TIME BETWEEN '2016-01-05 00 


00: 


00' AND '2016-01-05 23 


59: 


59'; 


可 以 获得 2016 年 1 月 5 日 这 一 天 的 PV 数 。 或 者 在 Linux 系 统 里 用 
Shell 命 令 切割 日 志 后 ， 用 wc-] 命 令 也 可 以 得 到 PV 数 ， 非 常 方便 e 


UV 实际 是 对 pV 的 用 户 维度 的 去 重 ，ARPU 值 是 一 个 “收入 总 数 /用 
户 数 "的 商 。 


这 些 都 是 一 些 用 相对 人 稍 单 的 统计 手段 衡量 而 比较 容易 得 到 的 值 。 


指标 的 获取 成 本 要 低 ， 无 论 是 人 力 成 本 还 是 时 间 成 本 ， 毕 葛 作 为 
工具 来 说 化 费 过 多 的 成 本 ， 甚 至 成 本 高 于 收益 是 不 划算 的 。 


3. 意 义 清 晰 


意义 清晰 是 非常 值得 注意 的 一 上 感 。 


首先 设立 的 指标 的 定义 是 不 容易 产生 二 义 性 的 ， 不 会 信人 对 指标 
本 喘 的 含义 产生 多 种 不 同 的 理解 。 


例如 ，UV 指 的 是 在 一 个 周期 里 有 多 少 不 同 的 用 户 来 访 。 在 一 个 网 
站 用 户 系统 里 ， 不 同 的 用 户 就 十 以 不 同 用 户 登 录 名 来 定义 的 ， 一 个 页 
面 访问 就 是 一 个 访问 。 这 个 定义 在 说 明 一 次 以 后 会 很 容易 被 大 家 记 
| 


此 外 ，UV 上 涨 和 UV 下 降 ， 对 业务 也 有 清晰 的 解释 。 如 一 个 网 站 
的 UV 持续 上 涨 ， 那 束 说 明 注 册 用 户 的 访问 量 在 增加 ， 反 之 在 减少 。 


再 如 ARPU 指 标 ，ARPU 值 在 上 涨 ， 说 明 平 均 从 每 个 用 户 号 上 赚 到 
的 钱 在 增加 ， 运 营 健 康 程度 应 该 说 也 是 在 增加 的 。ARPU 值 下 降 ， 说 
明 平 均 从 每 个 用 户 身 上 赚 到 的 钱 在 减少 ， 至 少 从 宏观 上 来 看 ， 每 个 人 
愿意 为 产品 买单 的 热情 越 来 越 低 ， 产 品 运 营 是 不 健康 的 。 


除了 指标 本 身 解释 的 意义 清晰 以 外 ， 这 些 指标 基本 也 是 可 以 通过 
改变 运营 策略 在 短 时 间 内 立 特 见 影 看 到 反馈 效果 的 。 请 注意 ， 这 一 点 
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一 样 ， 规 律 和 经 验 只 能 解决 一 部 分 问题 ， 很 多 运营 手段 ， 包 括 公 司 活 
动 、 发 布 新 有 版本、 新 广告 上 线 、 公 司 在 媒体 方面 的 新 消息 等 ， 痢 是 

有 比较 多 的 试探 性 意味 的 。 换 句 话 说， 在 做 这 些 事情 之 前 ， 只 是 对 这 
件 事 会 产生 好 的 结果 有 期 许 ， 但 古 不 能 也 无 法 决定 这 件 事 的 结果 是 好 
征 坏 ， 程 度 如 何 也 未 可 知 。 所 以 一 旦 有 了 指标 ， 束 会 关注 在 一 件 事情 
以 后 指标 上 的 反 锯 ， 有 了 对 指标 的 解读 ， 束 有 了 衡量 和 比较 的 标准 ， 
它 能 够 让 我 们 比较 方便 地 对 经 营 中 的 试探 做 出 适当 的 评价 。 


例如 ， 在 制作 一 个 游戏 的 过 程 中 ， 上 线 了 一 个 新 版 本 ， 第 二 天 发 
现 DAU (日 活跃 用户) 下 降 了 20%， 那 么 我 们 就 很 容易 推断 是 新 版 本 
的 发 布 导致 DAU 值 的 下 降 。 这 时 ， 我 们 要 及 时 进行 原因 的 排 得 ， 寿 确 

征 新 版 本 的 市 场 影 响 不 好 ， 那 么 一 定 要 及 时 做 版 本 回 滚 ， 亡 壮 补 牢 
总 比 在 月 度 结束 的 时 候 看 收入 报表 减少 了 再 来 找 原 因 要 迅速 得 多 


4. 周 期 适当 


指标 的 周期 设置 要 适当 ， 这 也 十 非 常 重要 的 一 点 。 


上 述 例 子 里 ，PV 的 周期 通 前 取 一 天 。 一 天 的 长 度 是 比较 合适 的 ， 
如 果 太 短 ， 每 小 时 计算 一 次 PV，PV 本 身 会 由 于 很 多 随机 事件 而 变 得 
流动 剧烈 ， 而 指标 对 趋势 性 变化 的 解读 通常 更 为 有 效 ， 科 试 对 指标 波 
动 的 解释 通 肖 都 很 让 和 人 困扰。 网 站 今天 9 点 到 10 点 间 的 PV 数 比 7 天 前 9 


点 到 10 点 ( 周 同比 ) 的 PV 数 多 20%， 请 问 这 是 由 于 公司 的 良好 经 营 策 
略 增加 了 20% 的 用 户 吗 ? 这 个 推论 无 法 成 立 。 这 个 波动 可 能 仅仅 是 由 
某 一 次 宣传 上 的 转发 动作 而 发 生 的 瞬时 性 的 访问 激增 ， 最 终 一 天 的 PV 
算 下 来 可 能 只 在 周 同比 上 有 19% 的 提高 ， 这 什么 都 说 明 不 了 。 


周期 设置 长 一 些 会 怎么 样 ? 反馈 迟钝 。 如 果 用 周作 为 单位 来 统计 
PV， 那么 如 果 要 看 经 营 筑 略 效果 ， 则 至 少 要 到 一 周 以 后 才能 看 到 结 
果 ， 而 且 结 果 还 混杂 在 整整 一 周 的 PV 合计 里 ， 难 以 区 分 策略 贡献 的 真 
实 大 小 。 


除了 周期 不 当 会 产生 的 指标 波动 难以 解读 和 反馈 迟钝 两 种 问题 以 
外 ， 周 期 不 当 本 里 可 能 都 让 指标 的 侦 测 行为 没有 现实 意义 。 


如 上 述 体 检 的 例子 ， 半 年 一 次 体检 ， 一 年 一 次 体检 ， 这 些 周 期 是 
较为 合适 的 。 周 期 过 短 ， 如 一 天 体检 一 次 ， 即 便 体 检 都 是 在 早上 空腹 
后 ， 有 极 大 的 准确 性 ， 也 确实 能 反映 每 一 天 里 体 各 器 官 各 指标 的 真实 
情况 ， 但 是 存在 以 下 问题 。 


问题 1 体检 会 花费 大 量 的 时 间 和 人 金钱。 一 次 体检 的 时 间 和 金钱 
的 成 本 平 摊 在 一 年 中 几乎 可 以 忽略 不 计 ， 但 是 每 一 天 都 有 体检 开销 则 
AD En ot ° 


问题 2 即便 体检 是 公家 报销 ， 时 间 也 充裕 。 但 是 如 此 频繁 和 短 
周期 的 体检 结果 对 于 行为 有 什么 指导 价值 ? 对 于 很 多 疾病 来 说 ， 治 疗 
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显然 是 没有 必要 ， 因 为 这 并 不 比 半年 检查 一 次 有 更 多 效益 。 平 日 地 所 
高 成 本 而 没有 可 预期 的 收益 ， 这 种 成 本 花费 的 意义 是 值得 质疑 的 。 


5. 尽 量 客观 


指标 选择 的 最 后 一 个 标准 是 尽量 客观 。 


说 实话 ， 这 一 氮 的 难度 其 实 并 不 低 。 人 本 吴 吏 是 一 种 靠 磺 官 感 知 
世界 的 动物 ， 既 然 旦 感知 本 身 束 珊 有 主观 性 ， 如 何 做 到 完全 客观 呢 ? 


有 一 些 指标 是 相对 容易 由 客观 的 统计 结 采 得 到 的 数字 ， 如 PV、 
UV， 以 及 上 述 所 有 指标 都 是 由 记录 结果 统计 而 来 的 比较 客观 的 指标 ， 
因为 它们 受到 观察 者 的 意愿 性 影响 较 小 。 


有 没有 主观 性 较 强 的 指标 呢 ? 有 的 。 如 在 一 些 企业 的 一 些 部 门 考 
核 中 的 各 人 打分 ， 这 些 评 分 的 客观 性 就 不 如 由 非 感性 的 数字 统计 而 来 
的 结果 客观 性 好 。 例 如 ， 部 门 员工 评价 中 会 看 到 类 似 表 5-1 所 示 的 评价 
标准 。 


表 5-1 ”部门 员工 评价 标准 


态度 : PASAT. PESTER 4 
能 力 : 能 力 突出 ， 作 用 显 落 3 
£3. 不 迟到 ， 不 早退 5 
知识 水 平 : 知识 面 丰富 3 
互助 : 热情 帮助 其 他 同事 4 
总 分 19 


表面 上 看 ， 这 样 的 评分 标准 也 十 使 用 了 数字 化 的 手段 ， 衡 量 标准 
(ENR) 几乎 是 装 在 脑子 里 瞬间 就 能 有 ， 意 义 也 做 了 解释 ， 周 期 也 可 
以 调整 为 半年 或 者 一 年 。 但 是 这 样 的 方式 很 可 能 经 不 住 推 融 ， 因 为 这 
个 评价 实际 上 完全 依赖 一 种 模糊 的 印象 ， 是 一 个 没有 标准 的 标准 。 所 
以 这 种 评分 的 高 低 会 因为 打分 人 的 不 同 而 产生 巨大 的 流动， 他 心情 好 
与 不 好 ， 他 对 别人 的 要 求 闫 格 与 不 关 格 ， 他 是 否认 真 对 待 这 次 打分 ， 
他 是 否 有 其 他 因素 的 个 人 成 见 渗透 其 中 ， 这 些 都 令 人 对 这 种 评分 体系 
的 公平 性 有 很 大 的 担忧 。 


事实 上 ， 在 日 常生 产生 活 中 ， 确 实 有 很 多 评分 是 极 难 避 开 人 类 主 
观 判断 的 ， 特 别 在 一 些 无 法 做 到 数字 化 评判 的 场景 里 ， 例 如 ， 奥 运 会 
里 的 目 由 体操 运动 ， 油 画 比赛 里 的 作品 打分 ， 再 如 CCTV 的 青 歌 赛 或 
者 歌手 选秀 节目 《图 5-3) 。 除 了 为 了 满足 娱乐 层面 和 商业 运作 层面 的 
需求 外 ， 这 个 评分 的 体系 还 古 被 期 望 有 一 定 的 公平 性 ， 那 要 怎么 做 


呢 ? 调和 的 思路 是 ， 既 然 是 主观 ， 那 一 个 人 的 主观 就 不 如 多 个 人 的 主 
观 更 公平 。 


图 5-3 ”主观 性 的 评分 场景 


办 法 1: 多 个 裁判 同时 打分 ， 求 平均 值 。 这 样 由 个 别 裁判 主观 因 
素 形 成 的 不 公平 因素 束 会 被 判 弱 。 


办 法 2: 去掉 极 值 。 如 在 很 多 比赛 里 会 有 多 位 裁判 同时 打分 
后 去 挥 两 个 最 高 分 ， 去 掉 两 个 最 低 分 。 这 种 办 法 也 是 为 了 削弱 由 个 别 
裁判 主观 因素 形成 的 不 公平 。 


办 法 3: 加 权 平 均 。 加 权 平 均 在 这 种 情况 下 也 可 以 发 挥 作用 ， 例 
如 ， 一 些 选秀 类 节目 除了 现场 裁判 打分 还 有 场 外 观众 打分 ， 当 然 权 重 
可 能 不 一 样 。 还 有 大 学 里 一 些 课程 评分 体系 也 是 有 类 似 的 思路 ， 期 末 
考试 占 70% 的 总 评 成 绩 ， 平 时 的 作业 占 30% 的 总 评 成 绩 。 大 概 思路 也 
是 显而易见 ， 有 既然 都 是 主观 评分 ， 那 裁判 有 权威 多 占 一 些 比重 ， 群 众 
相对 更 不 明 真 相 少 占 一 点 权重 ; 或 者 ， 期 末 考 试 比 较 重 要 比较 正规 多 
占 一 些 成 绩 比 重 ， 平 时 的 成 绩 也 能 说 明 学 习 的 质量 但 是 相对 重要 性 较 
低 少 占 一 些 成 绩 比 重 。 通 过 这 样 的 均衡 来 降低 某 一 个 人 或 者 某 一 次 主 
观 性 的 偏差 对 我 们 期 望 的 尽 可 能 客观 的 评价 所 造成 的 影响 。 但 是 加 权 
平均 的 手法 在 实际 生产 生活 中 作为 指标 评价 的 手段 其 实 并 不 容易 操 
作 。 主 要 问题 在 于 分 权 引入 哪些 因素 更 为 合理 ， 因 为 这 些 被 引入 的 因 
素 的 成 分 很 可 能 不 可 控 。 还 有 一 个 问题 是 各 因素 赋予 多 大 的 权重 更 为 
合理 ， 这 通常 没有 一 个 可 靠 的 标准 。 所 以 只 要 能 用 客观 数字 来 做 指 
标 ， 尽 量 使 用 客观 数字 ， 这 样 可 操作 性 会 更 大 一 些 。 


5.2.2 ”指标 体系 的 构建 


当 准 备 为 公司 设立 或 调整 指标 体系 时 ， 请 先 确保 它 满 足 数字 化 、 
易 衡 量 、 和 意义 清晰 、 周 期 恰当 等 基本 要 求 。 在 此 基础 之 上 ， 还 要 在 指 
标的 设置 上 进行 一 些 额外 的 考究 。 


1. 指 标 考核 的 对 象 


指标 考核 的 对 象 是 谁 ? 换 句 话说， 谁 来 育 这 个 指标 ? 


不 能 背 指标 的 部 门 会 失去 活力 ， 从 老板 的 角度 来 看 ， 无 法 评价 员 
工 的 好 坏 ， 进 步 与 否 ， 作 用 大 小 ;从 部 门 目 己 的 角度 来 看 ， 不 知道 生 
产 调整 的 方 癌 是 进步 还 是 退步 以 及 幅度 多 大 。 所 以 ， 如 果 要 想 让 部 门 
变 得 有 活力 ， 部 门 以 及 部 门 中 的 每 个 人 都 应 该 育 负 一 定 的 指标 。 而 指 
标的 评价 方 应 该 是 直接 享受 这 一 指标 收益 的 人 。 例 如 ， 公 司 的 后 勤 部 
门 为 公司 员工 提供 各 种 后 勤 服务 ， 后 勤 部 门 育 负 的 指标 里 应 该 有 诸 
如 “员工 满意 度 ” 这 种 指标 的 ， 而 这 种 指标 的 评价 方 应 该 古诗 受 后 勤 部 
门 服务 的 员工 或 部 门 。 当 然 ， 不 建议 直接 使 用 员工 打分 的 形式 ， 应 该 
尽量 用 “备货 延误 率 "、“ 投 诉 率 ” 等 相对 客观 可 循 的 数字 比较 好 。 


2. 指 标的 周期 


对 于 个 人 或 者 部 门 来 说 ， 指 标的 目的 是 为 了 进行 工作 质量 的 评价 
和 调整 ， 所 以 周期 要 设置 为 与 生产 周期 匹配 为 是 。 在 很 多 劳动 密集 型 
的 产业 ， 如 工 片 里 ， 工 作 指 标 是 用 小 时 做 单位 的 ， 在 一 些 超 市 里 打 零 
工 的 码 货 员 一 类 的 职位 同样 用 的 是 小 时 为 单位 的 指标 ， 因 为 他 们 的 殉 
动 场景 以 小 时 为 单位 天 可 以 做 出 完整 评价 ， 如 “平均 每 小 时 成 品 数 
量 ”“ 平 均 每 小 时 工资 ”等 。 


在 互联 网 企业 里 很 多 产品 指标 的 周期 是 天 ， 某 个 部 门 和 某 个 人 的 
指标 周期 是 周 或 者 月 ， 对 于 公司 级 别 的 指标 则 很 多 是 用 月 、 季 度 、 年 
来 做 单位 的 。“Q4 销 售 额 ”( 第 四 季度 销售 额 ) 、“2015 年 度 盈 气 "， 这 
两 个 指标 一 个 以 季度 为 单位 进行 统计 ， 另 一 个 则 以 年 为 单位 进行 统 
计 。 


3. 指 标的 比较 


指标 可 以 横 疝 对 比 也 可 以 纵向 对 比 ， 但 古 不 能 “ 斜 着 比 ”。 


所 谓 横 向 ， 束 是 指 同一 部 门 或 同一 工种 之 间 的 同一 指标 的 对 比 。 
横 问 通常 用 在 某 一 特定 时 段 ， 对 员工 进行 排名 或 者 评 优等 评价 。 同 一 
生产 线 上 的 同一 工种 的 每 个 工人 的 “平均 每 小 时 成 品 数量 ”是 可 以 比较 
的 ， 比 较 的 结果 就 是 谁 平均 每 小 时 成 品 能 力 更 强 。 


所 谓 纵 同 ， 束 是 同一 部 门 或 者 同一 员工 ， 目 己 某 一 指标 在 不 同时 
段 的 对 比 。 
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例如 ， 销 售 部 门 的 销售 额 ，8 月 为 1000 万 ， 同 比 增加 20%， 环 比 增加 
10%， 这 种 比较 就 古典 型 的 纵 同 比较 。 


但 是 “ 斜 着 比 ”通常 没有 可 比 性 。 同 一 时 间 段 不 同 部 门 的 不 同 指 标 
之 间 ， 单 纯 从 数字 大 小 是 能 比较 的 ， 但 是 比较 的 结 采 没有 任何 解释 性 
的 意义 ， 所 以 一 般 不 做 这 种 对 比 。 


4. 复 合 指标 
复合 指标 是 针对 基础 指标 而 言 的 。 


基础 指标 一 般 认 为 是 不 可 再 分 的 指标 ， 如 PV 数 ， 这 个 指标 再 分 是 
没有 业务 意义 解释 的 。 


复合 指标 一 般 是 由 基础 指标 和 复合 指标 进行 运算 得 到 的 。 如 游戏 
中 毅 用 的 “用 户 留 存 率 ? 束 是 一 个 复合 指标 ， 因 为 它 是 由 两 个 基础 指标 
计算 而 来 的 ， 一 个 是 “注册 用 户 数 "， 一 个 是 “留存 用 户 数 "， 用 “留存 用 
户 数 " 除 以 “注册 用 户 数 ” 得 到 的 商 作为 "用户 留 存 率 ”指标 。 


复合 指标 在 指标 体系 里 的 数量 还 是 很 多 的 ， 尤 其 是 越 安 观 的 数据 
指标 越 是 复合 指标 ， 这 也 符合 “ 抓 大 放 小 ”的 管理 原则 。 在 经 济 学 和 社 
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系数 等 。 


除了 一 些 比 较 大 型 、 层 级 多 、 涉 及 行业 或 生产 环节 多 的 公司 以 
外 ， 一 般 的 中 小 型 公司 通 彰 不 推荐 使 用 过 于 复杂 的 复合 指标 体系 ， 
为 这 让 指标 反映 变 得 不 直观 ， 反 馈 也 不 直观 。 这 样 的 指标 值 上 升 了 或 
者 下 降 了 ， 我 们 无 法 快速 地 找到 诱发 的 基础 指标 ， 更 无 法 快速 地 找到 
对 应 的 环 方 、 部 门 或 人 一 一 让 反映 变 得 迟钝 肯定 不 会 古 管理 的 目的 。 
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嘴 口 气 ， 因 为 我 们 可 以 告 一 段落 了 “。 在 前 5 章 里 我 们 讨论 了 排列 组 合 、 
统计 、 概 率 、 分 布 、 指 标 等 内 容 ， 附 录 里 提供 了 数据 收集 以 及 其 他 辅 
助 技 术 ， 如 有 果 使 用 好 这 些 知识 ， 日常 运 宫 中 的 多 数 问 题 束 都 能 解决 
[fe 
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那 请 放松 心情 继续 往 下 读 吧 ， 它 们 虽然 离 生 产生 活 会 略 远 一 些 ,但 是 
同样 不 难 。 


第 6 章 ” 信息论 


从 本 章 开 始 就 要 逐步 展开 数据 挖掘 和 机 亏 学 习 相 关 的 内 容 了 。 


虽然 信息 论 和 很 多 数据 挖掘 算法 没有 直接 的 关联 应 用 ， 但 是 也 有 
相当 比例 的 机 器 学 习 算 法 中 应 用 到 了 信息 论 的 概念 ， 所 以 这 里 还 是 要 


提 一 下 信息 论 。 


信息 论 无 疑 古 20 世 纪 最 伟大 的 发 明之 一 。 信 息 论 的 葛 定 为 后 来 的 
通信 和 系统、 数据 传输 、 密 码 学 、 数 据 压缩 等 学 科 领 域 市 来 了 更 多 的 所 
示 和 理论 依据 ， 也 极 大 地 促进 了 这 些 学 科 领 域 的 长 足 发 展 。 


AAK (Claude Shannon) 被 称 为 “信息 论 之 父 ”。 人 们 通常 
将 香农 于 1948 年 10 月 发 表 于 《贝尔 系统 技术 学 报 》 上 的 论文 《A 
Mathematical Theory of Communication) ( 《通信 的 数学 理论 》) 作为 
现代 信息 论 研 究 的 开端 。 图 6-111 所 示 为 克 劳 德 .香农 。 


图 6-1 AASER 


信息 论 涉及 的 内 容 非常 多 ， 这 里 只 挑选 和 相关 的 最 基本 的 知识 点 
来 讲述 。 


[1] 图 片 来 自 百度 百科 。 


6.1 信息 的 定义 


前 面 的 章节 已 经 定性 地 介绍 了 信息 的 含义 。 这 里 引用 最 被 大 家 广 
泛 认 可 的 一 种 科学 性 的 信息 定义 一 一 “信息 是 被 消除 的 不 确定 性 。” 这 
是 1928 年 由 哈 特 莱 (R.V.L.Hartley) 提出 的 概念 。 这 句 话 读 起 来 还 是 
不 够 具象 ， 下 面 举例 来 说 明 。 


还 是 讨论 前 面 提 到 的 足球 赛 结果 的 例子 吧 (图 6-2) 。 


某 一 天 巴西 足球 队 和 中 国足 球 队 进 行 了 比赛 。 


结 采 第 二 天 张 三 说 “昨天 巴西 队 顾 了 。” 


而 后 李 四 说 “昨天 中 国 队 输 了 。” 


再 而 后 王 五 说 “昨天 的 比赛 不 是 平局 。* 


PB Vs OH 


PO al aian AROOM 


c mm 
¢ 


2 3e 
: 0 


图 6-2 足球 比赛 


在 没有 比赛 之 前 ， 我 们 只 能 对 结果 做 一 个 猜测 ， 仅 仅 插 借 目 己 对 
足球 比较 规则 的 了 解 ， 结 采 无 非 3 种 : “EARE” ` EAR ` SP o 
任何 一 种 的 可 能 性 都 是 存在 的 ， 然 而 由 于 一 些 其 他 原因 导致 其 中 某 一 
种 可 能 性 出 现 的 几率 更 大 (大 家 都 懂 的 ) 。 


当 有 人 告诉 我 准确 的 结果 后 ， 如 “巴西 胜 ”， 那 么 另外 两 种 结 采 束 
不 存在 了 ， 这 个 过 程 就 是 前 面 说 的 “消除 随机 不 确定 性 ”， 这 一 句 “ 巴 西 
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有 人 具体 描述 了 由 谁 在 什么 时 间 进 球 得 分 或 者 犯规 吃 了 红 黄 牌 则 又 是 
言 轧 ， 因 为 这 个 消 妃 又 消除 了 其 他 的 不 确定 性 。 
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6.2.1 信息 量 的 计算 


信息 量 是 一 个 重要 的 知识 点 。 平 时 在 读 网 文 的 时 候 会 看 到 很 多 人 
开玩笑 说 菏 某 消 居 信 息 量 真 大 ， 其 实 言 外 之 意 是 说 这 篇 网 文 在 子 面 意 
思 的 至 后 再 圾 磨 一 下 能 推断 出 很 多 其 他 信息 来 。 而 在 信息 论 中 ， 对 信 
思量 是 有 确定 解释 并 且 可 以 量化 计算 的 ， 这 里 提 到 的 信息 量 是 一 种 信 
思 数 量化 度量 的 规则 ， 注 意 ， 信 息 是 具体 要 数量 化 的 而 不 再 是 前 面 开 
玩笑 中 的 大 小 的 说 法 。 


用 科学 的 公式 性 的 方法 量化 一 段 说 话 的 录音 ， 一 段 文字 有 多 少 信 
居 的 想法 最 早 还 是 在 1928 年 由 哈 特 莱 (R.V.L.Hartley) 首先 提出 ， 即 
言 息 定量 化 的 初步 设想 ， 他 将 消息 数 的 对 数 (og) 定义 为 信息 量 。 若 
信 源 有 m 种 消息 ， 且 每 个 消息 是 以 相等 可 能 产生 的 ， 则 该 信 源 的 信息 
量 可 表示 如 下 : 


I-log;m 
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上 述 公 式 是 一 个 以 mm 为 目 变 量 的 对 数 函 数 ， 即 I (m) =logy m ° ih 
记得 对 数 函 数 的 定义 是 什么 吗 ? 这 里 复习 一 下 ， 例 如 ，23 =8 (BU 


2x2x2，2 的 3 次 需 等 于 8) ， 那 么 log 8-3» 


举 个 具体 的 例子 ， 假 设 是 中 国 乒 乓 球 队 和 巴西 乒乓 球 队 的 男子 单 
打 比 赛 ， 注 意 ， 它 和 足球 比赛 可 大 不 一 样 ， 它 不 存在 平局 的 问题 。 那 
么 中 国 兵 乓 球 队 获 胜 ， 巴 西 乒乓 球 队 获 胜 ， 这 两 个 束 已 经 是 所 有 可 能 
发 生 的 情况 了 ， 只 有 2 种 情况 ， 即 上 述 公 式 中 m=2， 信 源 有 2 种 (中 国 
队 获 胜 且 巴西 队 失 败 ， 巴 西 队 获胜 且 中 国 队 失败 ， 这 2 种 信 源 消息 穷 举 
了 所 有 的 可 能 性 ) 。I=log 2=1， 信 息 量 为 1， 单 位 是 比特 (bit) ° 


再 举 一 个 例子 ， 足 球 世界 杯 在 淘汰 赛 阶段 会 有 32 文 球 队 参 赛 ， 分 
为 8 组 ， 每 组 4 文 球 队 ， 通 过 单 循 环 赛 每 个 组 有 两 文 球 队 会 有 出 线 权 ， 
之 后 吏 是 各 目 捉 对 扬 杀 直到 决 出 冠军 。 理 论 上 讲 ， 在 32 文 球 队 没有 开 
赛 之 前 每 文 球 队 都 是 有 获取 冠军 的 可 能 性 的 。 也 束 定 议 ， 对 于 谁 获得 
冠军 这 件 事 来 讲 ， 有 32 种 情况 。 那 么 最 后 在 不 知道 比赛 过 程 的 情况 
下 ， 帘 然 被 通知 有 一 文 球 队 获胜 ， 这 个 信息 量 为 多 大 呢 ? 即 m=32 (也 
忠 古 32 文 球 队 的 任意 一 支 获胜 都 症 一 种 信 源 消 恩 ，32 种 信 源 消息 穷 举 
了 所 有 的 可 能 性 ) ，I=log 32=5， 信 息 量 为 5， 单 位 是 比特 (bit) ° 


为 了 计算 方便 ， 这 里 使 用 的 是 m 为 2 的 整 次 窜 来 计算 的 。 比 对 一 下 
结果 不 难 发 现 ， 后 者 有 32 个 可 能 值 的 时 候 信息 量 为 5， 有 2 个 可 能 值 的 
时 候 信息 量 为 1。 极 端 情况 是 ， 只 有 1 个 可 能 值 的 时 候 信息 量 为 0， 因 为 
log, 1=0， 也 就 是 无 须 告 知 也 知道 结果 时 ， 即 便 告 知 了 结果 ， 信 息 量 也 
为 0。 


62.2 ”信息 量 的 理解 


看 到 这 里 ， 可 能 有 一 些 读者 已 经 看 出 一 些 矛 盾 来 了 。 估 计 会 有 人 
有 下 面 的 质疑 。 


“我 怎么 觉得 中 国 兵 乓 球 队 和 巴西 乒乓 球 队 的 比赛 又 无 基 念 呢 ? d 
本 可 以 确定 中 国 获胜 ， 那 说 中 国 获胜 跟 废 话 区 别 大 吗 ? ” 


“我 怎么 觉得 中 国足 球 队 和 巴西 足球 队 的 比赛 也 毫 无 巧 念 呢 ? 基本 
可 以 确定 巴西 获胜 ， 那 说 巴西 获胜 信息 量 是 0 吗 ? ， 


“按照 理论 ， 消 除 的 不 确定 程度 越 高 ， 信 息 量 越 大 ， 消 除 的 不 确定 
程度 越 低 ， 信 息 量 越 小 。 那 么 ， 前 面 的 计算 方法 似乎 不 成 立 啊 ! ” 


这 种 质疑 确实 有 道理 。 


回 过 头 来 看 看 ， 刚 才 使 用 I=log m 这 个 公式 来 计算 信息 量 其 实 是 
有 一 个 隐 舍 前 提 的 ， 束 是 mm 种 情况 产生 的 概率 是 均等 的 ， 没 有 任何 一 
种 信 源 比 其 他 信 源 出 现 的 可 能 性 大 。 举 一 个 极端 的 例子 ， 虽 然 有 两 种 
情况 发 生 ， 但 是 一 种 可 能 性 实在 大 到 接近 100%， 而 男 一 种 可 能 性 接近 
0° 


例如 ， 现 在 的 《中 华人 民 共 和 国道 路 交通 安全 法 》， 也 整 是 人 们 
平时 说 的 交通 法 规 ， 其 中 规定 “ 红 灯 集 绿灯 行 "， 在 某 一 次 进行 交通 法 
规 修 订 的 时 候 被 修改 为 红 灯 行 绿灯 停 的 可 能 性 有 多 大 ? 理论 上 说 这 种 
可 能 性 确实 存在 ， 至 少 没有 办 法 证 明 它 一 定 不 存在 ， 但 是 实际 上 从 人 
类 社会 协调 的 角度 看 ， 从 修法 的 社会 效益 来 看 ， 确 实 也 是 没有 理由 。 
所 以 在 一 次 交通 法 规 修订 后 ， 被 告知 “交通 法 规 仍旧 是 红 灯 集 绿灯 
行 ” 这 一 信息 的 信息 量 如 何 呢 ? 那 显 然 跟 0 差不多 ， 虽 然 这 种 情况 m 确 
实 是 2。 那 么 这 种 概率 不 等 的 情况 应 该 怎么 计算 比较 合适 呢 ? 信息 论 里 
也 有 确切 的 解释 和 计算 方法 。 


在 日 第 生活 中 ， 极 少 发 生 的 事件 一 旦 发 生 是 容易 引起 人 们 关注 
的 ， 而 司空 见 惯 的 事件 不 会 引起 注意 ， 也 就是 说 ， 极 少见 的 事件 所 带 
来 的 信息 量 大 。 如 果 用 统计 学 的 术语 来 描述 ， 就 是 出 现 概率 小 的 事件 
言 思 量 大 。 因 此 ， 事 件 出 现 的 概率 越 小 ， 信 息 量 越 大 ， 即 信息 量 的 多 
少 是 与 事件 发 生 频 繁 程度 大 小 〈 即 概率 大 小 ) 恰好 相反 的 ， 这 里 不 能 
称 作成 反比 ， 因 为 它们 不 是 倒数 关系 。 


公式 如 下 ; 
H(X,)=-log, P 


Xi 表示 一 个 发 生 的 事件 ，P 表 示 这 个 事件 发 生 的 移 验 概率 。 所 谓 
先 验 概 率 ， 就 是 这 个 事件 按照 常理 ， 按 照 一 般 性 规律 发 生 的 概率 。 


还 是 用 上 述 中 国 乒 乓 球 队 和 巴西 乒乓 球 队 比 赛 的 例子 来 说 明 。 


假设 中 国 兵 乓 球 队 和 巴西 乒乓 球 队 历史 交 手 共 64 次 ， 其 中 中 国 获 
胜 63 次 ，63/64 是 赛 前 普遍 认 可 的 中 国 队 获胜 的 概率 ， 即 先 验 概 率 。 那 
么 这 次 中 国 获 胜 的 信息 量 有 多 大 呢 ? 


63 
H(X)=—log, — —0.023 
wu IoB Gy 


巴西 获胜 的 信息 量 有 多 大 呢 ? 
A(X,)=-1 6 
A.)=—-log,—= 
( i ez 64 
单位 都 是 bit。 
同 理 得 到 ， 对 于 概率 100% 的 事件 ， 信 息 量 为 0 


而 概率 特别 小 的 事件 信息 量 是 多 少 ， 征 无 穷 大 吗 ? 再 来 看 一 个 例 
ae 
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马云 重 回 中 国 首 定 宝 座 ， 马 云 以 1450 亿 元 位 于 第 二 和 名。 


马云 身价 1450 亿 元 ， 假 设 一 个 人 通过 每 次 购买 双色 球 中 头 奖 而 得 
到 500 万 奖金 〈 而 且 假设 不 需要 交 税 ) ， 那 就 是 最 快 的 情况 下 需要 连 中 
29000 次 才能 赶 上 马云 (图 6-3) 。 也 就 是 说 假设 一 星期 开奖 3 次 ，3 次 
全 中 500 万 ， 需 要 连 中 185.9 年 。 前 面 算 过 ， 中 头等 奖 的 概率 为 


1 j 00 
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图 6-3” 连 中 双色 球 头 奖金 额 累计 ( 见 彩 插 ) 


l 
H(X)=—29 000 x log, 17 7210882" 687 


信息 量 约 为 70 万 。 


当然 ， 这 个 例子 其 实 非 常 不 不 严谨 ， 因 为 185.9 年 通胀 得 有 多 少 没 
有 人 知道 ， 马 云 在 185.9 年 内 的 情况 也 全 无 定数 ， 我 们 这 个 例子 完全 是 
一 种 刻 舟 求 剑 的 示意 而 已 ， 切 茧 深究 。 我 们 看 一 下 ， 这 种 已 经 不 可 能 
到 极点 或 者 项 廖 到 极点 的 信息 也 不 是 我 们 想象 的 天 文 数 字 ， 但 是 要 知 
道 在 信息 量 里 这 种 儿 十 万 的 数字 已 经 殴 是 天 文 数 字 了 ， 我 们 有 个 感性 
认识 殴 可 以 了 ， 在 实际 生产 生活 中 我 们 计算 这 种 事情 的 信息 量 的 机 会 


其 实 也 不 多 。 


香农 他 老人 家 留 给 我 们 最 经 典 不 过 的 东西 吏 是 香农 公式 了 一 一 这 
个 以 他 老人 家 的 大 名 命名 的 公式 。 在 数据 挖 据 和 机 器 学 习 中 我 们 没 什 
么 机 会 用 到 香农 公式 ， 不 过 他 发 明 的 这 个 公式 无 时 无 刻 不 在 我 们 映 边 
Dias ° ME? 我 们 用 的 无 线路 由 器 的 通信 传输 速度 就 是 用 香农 公式 
来 计算 的 ， 讲 到 信息 论 我 觉得 还 是 提 一 名 这 个 经 典 公式 比较 好 。 我 们 
光 米 看 一 下 这 个 公式 


C - B-log, | 1+ 
"s NL 


单位 bps。 
其 中 : 


.B 是 码 元 速率 的 极限 值 〈 奈 奎 斯 特 指 出 ，B=2H， 了 为 信道 带宽 ， 
单位 为 Baud) ; 


.S 是 信号 功率 (FL) ; 


NEREK (RD) 。 
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么 真 的 很 庆幸 ， 你 一 幸子 确实 也 没什么 机 会 能 真正 用 上 它 。 我 们 在 这 
里 提 到 这 个 公式 钙 为 了 拓展 一 下 知识 罗 度 和 考虑 问题 的 思路 。 


公式 左边 的 C 表 示 在 一 个 信道 里 面 信号 传输 的 速度 上 限 ， 单 位 为 
比特 。 


公 陈 右面 的 B 是 和 带宽 大 小 H 成 正比 的 ， 市 宽 越 大 传输 速度 越 快 ， 
不 管 是 有 线 传 输 还 是 无 线 传 输 。 


SN 十 信 噪 比 ， 残 是 要 传输 的 信号 功率 和 在 这 个 信道 里 产生 的 各 
种 信号 噪声 《基本 都 是 电信 号 或 者 无 线 射频 信号 ) 的 功率 大 小 比值 。 


从 公式 定性 分 析 来 看 ， 读 宽 越 大 传输 速度 越 快 。 这 里 的 带宽 与 人 
们 平时 说 的 “家 里 装 了 100Mbps 的 电信 和 视 带 ”中 的 带宽 不 是 一 个 概念 ， 
这 里 的 带宽 的 单位 是 Baud (REE) ， 家 里 钨 的 宽带 市 宽 单 位 是 bit ( 比 


TR) c 


信 噪 比 越 大 传输 速度 越 快 ， 这 平时 也 有 体会 ， 束 是 WiFi 满 格 时 或 
者 4G 信 与 满 格 时 看 网 页 、 下 载 电 影 速 度 束 快 ， 这 个 时 候 普遍 的 信 品 比 
比较 大 ;， 相 反 WiFi 信 和 号 或 者 4G 信 和 号 只 有 一 格 时 刷 网 页 效果 会 非常 不 
好 ， 能 出 来 束 不 错 了 ， 还 有 的 时 候 居然 刷 了 半天 没 反 应 ， 这 个 时 候 其 
实 主 要 束 是 因为 信 品 比比 较 小 (图 6-4) 。 


($$, Kesh, men 
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微 信 都 发 不 出 去 …… 


图 6-4 ”信和 吗 比 对 传输 速度 的 影响 


信 品 比 小 束 影 响 传 输 ， 传 过 去 的 信号 由 于 噪声 信号 干扰 太 大 ， 传 
输 有 可 能 完全 不 成 功 。 如 有 果 万 壮 信 品 比 的 大 小 还 能 保证 部 分 信号 传输 
成 功 ， 那 又 希望 保证 传输 的 信息 是 完整 的 怎么 办 ? 只 能 多 传 儿 次 或 者 
在 信息 后 面 加 入 一 些 校 验 码 来 做 信息 见 余 。 


6.4 HW 


6.4.1 热力 炳 
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(shang) ， 也 是 最 抽象 的 一 个 概念 


“ 粹 ”这 个 词 在 热力 学 、 生 物 学 、 信 息 学 上 都 出 现 过 ， 而 且 都 有 比 
较 确 切 的 科学 解释 。 


图 6-5” 克 劳 修 斯 


387] 5 PAR SE ah ee 185 SF EH (8 Ll YY BE AR HAAR TE 
TA EHI HS BRK AAEN (图 6-5 趾 ) 提出 的 。 据 史料 称 ，1870 
年 克 劳 修 斯 在 普法 战争 中 组 织 了 一 文 救 伤 队 奔赴 前 线 ， 而 他 本 人 在 战 
FPS TAMARA, ABET RT FE © 
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学 生 时 代 常 见 的 现象 来 做 说 明 吧 o 


在 一 个 “U” 型 槽 里 ， 放 一 个 小 铁 球 ， 在 没有 空气 、 没 有 摩擦 的 情 
况 下 ， 人 小 铁 球 从 一 端 高 点 落下 会 由 于 能 量 守 恒定 律 在 这 个 “U?" 型 槽 里 
反复 运动 ， 从 左 到 右 再 从 右 到 左 。 这 是 理想 的 无 能 量 损失 的 状态 。 


而 实际 状况 是 什么 呢 ? 空气 阻力 以 及 档 壁 与 小 铁 球 之 间 的 摩擦 使 
得 一 部 分 能 量 从 重力 势能 同 动能 转化 的 过 程 中 损耗 掉 ， 小 铁 球 随 之 能 
够 到 达 的 高 点 也 越 来 越 低 。 在 这 个 过 程 中 ， 越 来 越 多 的 机 械 能 不 可 逆 
地 变 成 了 内 能 一 一 人 们 观察 到 的 就 是 整个 系统 发 热 ， 瘟 度 会 升 高 一 
HE, AWE TRAE o AALER RTENE RA... 


在 这 个 封闭 系统 里 ， 随 着 燃 的 增加 ， 机 械 能 也 将 越 来 越 少 ， 最 后 
以 至 于 小 铁 球 静 止 不 动 ， 此 时 所 有 的 机 械 能 都 转化 成 了 烂 。 而 这 个 一 
直 在 增加 的 炳 是 什么 ?” 由 于 系统 封闭 ， 所 以 根据 能 量 守 恒定 律 ， 可 以 
推断 出 ， 最 后 小 铁 球 运 动 的 机 械 能 全 部 转化 成 了 内 能 ， 也 就 古 在 整个 


RAPERE LF o RE ER ARIE? 根据 分 子 动 理论 ， 基 
开始 系统 中 的 各 种 分 子 不 管 是 固体 还 是 气体 都 以 较 低 的 速度 进行 布衣 
运动 ， 也 束 古 无 规则 的 运动 。 而 有 相当 质量 的 小 铁 球 在 系统 里 却 是 按 
照 一 个 相对 确定 的 方 同 往复 运动 ， 它 是 有 机 会 由 重力 势能 转化 成 动 
能 ， 再 从 动能 转化 成 重力 势能 的 ， 当 然 也 有 机 会 转化 成 内 能 。 


最 开始 (图 6-6) : 
系统 里 的 总 能 量 = 小 铁 球 的 重力 势能 + 小 铁 球 的 动能 + 内 能 
最 开始 小 铁 球 的 重力 势能 较 大 ， 小 铁 球 的 动能 为 零 ， 内 能 较 小 。 


在 中 间 某 一 时 刻 小 铁 球 运行 到 最 低 点 时 ， 小 铁 球 的 重力 势能 大 
， 小 铁 球 的 动能 较 大 ， 内 能 比 最 开始 时 升 高 (图 6-7) 。 
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图 6-6 ”开始 时 ( 见 彩 插 ) 
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图 6-7 ”小 球 运动 到 最 低 点 ( 见 彩 插 ) 


最 后 小 铁 球 静 止 时 ， 小 铁 球 的 重力 势能 为 零 ， 动 能 也 为 零 ， 内 能 
升 高 到 最 高 (图 6-8) 。 


最 后 机 械 能 全 部 不 可 逆 地 转化 成 内 能 ， 而 这 些 内 能 是 没有 机 会 再 
2S ONL AEA, IX SABER IEE AF Bes (图 6- 
9) » 


图 6-8 ”小 铁 球 静止 
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图 6-9 MHE ( 见 彩 插 ) 


其 实 从 最 微观 的 角度 去 看 也 是 一 样 的， 最 开始 大 量 铁 原 子 的 质量 
由 于 地 球 引 力 基 本 都 是 以 一 定 的 速度 向 一 方面 前 进 ， 再 克服 重力 升 
高 ， 表 往复。 到 最 后 由 于 能 量 在 摩擦 中 都 给 了 周围 的 空气 分 子 和 其 他 
分 了 于， 其 他 分 子 向 各 个 不 同方 向 前 进 的 速度 都 变 快 了 ， 瘟 度 升 高 了 ， 
但 是 再 也 没有 能 力 像 原来 铁 原子 一 样 向 一 个 方向 运动 了 (图 6-10) 。 


我 们 也 可 以 粗略 地 认为 ， 这 种 分 子 运 动 的 杂乱 程度 变 遍 了， 伴随 
着 这 种 杂乱 程度 的 变 高 ， 燃 增加 了 。 
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图 6-10 ”分子 不 能 同一 个 方向 运动 ( 见 彩 搬 ) 


也 有 一 些 物理 学 家 推广 了 热力 灼 存在 场景 ， 放 到 整个 宇宙 里 
去 ， 提 出 了 热 寂 理论 (Heat Death) 这 种 猜想 宇宙 终极 命运 的 假说 一 一 
最 早 是 由 爱尔兰 数学 物理 学 家 威廉 :汤姆 条 (William Thomson) 于 1850 
年 提出 的 。 大 意 是 ， 宇 宙 也 是 由 原子 之 间 的 斥 力 引力 所 提供 的 能 量 
运动 的 ， 宇宙 最 终 和 上 述 “U” 型 模 命 运 差 不 多 ， 也 是 向 着 信 增 的 方向 
发 展 ， 最 后 宇宙 所 有 角落 的 机 械 能 都 没有 了 ， 宇 宙 内 能 增高 ， 一 片 死 
家 。 但 是 到 目前 为 止 还 没有 任何 事实 证 据 支 持 该 学 说 的 正确 性 。 


[1] 图 片 来 源 于 百度 图 库 。 


6.4.2 fe RAS 


HUT AT 283 7] ME Be T5 LER ISTE TRU fe ET ASS 
Eb, FATT aE RSS TOR AUD Los 2e 2] USE E HP EA, He 
两 者 形式 比较 像 。 


言 轧 灯 如 果 要 用 平民 语言 说 得 尽 可 能 直 晶 的话， 我 觉得 可 以 认为 
是 信息 的 杂乱 程度 的 量化 描述 。 


AAA P: 


H(x) — -X p(x,)log, P(x), i=1,2,…,n 
i=l 


EH, x SS, Bea x 产生 的 概率 乘 以 该 可 能 
性 的 信息 量 ， 然 后 各 项 做 加 和 。 


也 许 有 的 读者 在 其 他 资料 上 会 看 到 这 里 的 log 是 取 10 的 对 数 1g， 或 
首 目 然 第 数 e 的 In 目 然 对 数 。 这 里 强调 一 下 ， 在 应 用 的 过 程 中 用 任何 一 
种 值 做 底 都 是 可 以 的 ， 但 是 注意 在 某 一 次 应 用 的 整个 过 程 中 ， 参 与 本 
次 应 用 的 所 有 信息 粹 都 必须 采用 同一 个 后 ， 不 能 将 不 同 抵 的 对 数 来 出 
的 炉 再 做 加 和 或 者 比较 ， 这 样 完全 没有 意义 ( 距 好 像 3 米 和 2 英尺 ， 虽 
然 都 是 长 度 单位 ， 但 是 3 米 +2 英 尺 既 得 不 到 5 米 也 得 不 到 5 英尺 ) Aeg 
的 例子 大 部 分 都 是 使 用 以 2 为 底 的 对 数 进行 计算 ， 请 注意 这 一 点 。 


1. 示 例 1: 2 选 1“ 一 边 倒 ” 


为 了 说 得 清楚 还 古 具 体 举 例 吧 ， 还 是 用 中 国 乒 长 球 队 和 巴西 乒乓 
球 队 比 赛 的 例子 说 明 。 


假设 中 国 乒 乓 球 队 和 巴西 乒乓 球 队 历史 交手 共 64 次 ， 其 中 中 国 获 
胜 63 次 ，63/64 是 赛 前 普 裔 认可 的 中 国 队 获胜 的 概率 一 一 注意 ， 这 个 是 
先 验 概 率 。 那 么 这 次 “中 国 获胜 ”这 个 消息 的 信息 量 有 多 大 呢 ? 


^ 


63 
H(Xi)--log, — ^ 0.023 
64 


“巴西 获胜 * 的 信息 量 有 多 大 呢 ? 
H(Xi)=-1 - 
Xi)=—log,— = 

7? 64 
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对 于 无 限 不 循环 小 数 只 能 根据 需要 取 一 个 近似 值 ， 注 意 这 是 一 
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再 看 一 个 两 者 势均力敌 的 例子 ， 假 设 德国 乒乓 球 队 和 法 国 乒 乓 球 
队 比 赛 ， 双 方 历史 交手 64 次 ， 交 手 胜 负 为 32: 32， 那 么 1/2 是 赛 前 普遍 
认可 的 德国 队 的 获胜 概率 ， 同 时 也 是 法 国 队 的 获胜 概率 。 


德国 获胜 的 信息 量 : 


H(Xi)-—log; —-1 


l 
2 
法 国 获胜 的 信息 量 : 


H(Xi)=-log, —=1 


l 
2 
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3. 示 例 3: 32151 2] 


如 有 果 在 足球 世界 杯 决 赛 阶段 ， 即 假设 32 文 球 队 获 得 冠军 等 概率 的 
情况 下 进行 信息 焕 的 计算 。 


队伍 1 获胜 的 信息 量 : 


H(Xi) =—log, — =5 
"A 
队伍 2 获胜 的 信息 量 : 
l 
H(Xi) 2 -log, —=5 
"d 
队伍 32 获 胜 的 信息 量 : 
m l 
H(Xi) =—log, ——-5 
IL 
UREAN (7234327) 
5 esu a +5 出 ug 
32 32 32 
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4. 示 例 4: 32 选 1“ 一 边 倒 ” 


假设 队伍 1 获胜 概率 为 99%， 而 其 他 31 文 队伍 每 一 文 队伍 的 获胜 概 
REP A1%/31, KERERE RANED e 


队伍 1 获胜 的 信息 量 : 


H(Xi)--1og, 0.99 = 0.014 5 


队伍 2 获胜 的 信息 量 : 


H(Xi)--log, =œ 11.60 


Dn 


队伍 32 获 胜 的 信息 量 : 
x: 0.01 
H(Xi)=—log, ——~ 11.60 
^ Sl 
Wem OnmBP—38831/7 (0.01/31) x11.60) 
.. 0.01 0.01 0.01 
0.99 X 0.014 5€ — ^ X 11.60 — ^ X 11.60€ — X 11.60 ~ 0.130 


5. 结 论 


在 信息 可 能 有 N 种 情况 时 ， 如 果 每 种 情况 出 现 的 概率 相等 ， 那 么 N 
BRK, fe MAK o 


在 信息 可 能 有 N 种 情况 时 ， 当 N 一 定 ， 那 么 其 中 所 有 情况 概率 相等 
时 信息 炉 是 最 大 的 ， 而 如 果 有 一 种 情况 的 概率 比 其 他 情况 的 概率 都 大 
RE, WAT AA) 


FLARE (ETE PST oe n] AFTE RS o TESTU ae: 


TERE, BA, SIE), 


MBE, REIL, fH AAMECA © 


AA ae teB ZY, RLE Efe aE Ms 
知道 它 用 在 哪里 。 既 然 它 是 用 来 度量 信息 混乱 程度 的 ， 那 么 凡是 关心 
言 息 混乱 程度 对 系统 的 影响 的 地 方 都 可 以 用 信息 炉 来 辅助 调整 或 判 
Wr e 
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目 成 句 的 可 能 性 。 
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本 章 需要 了 解 的 是 信息 量 的 定义 、 信 息 精 的 定义 和 计算 方法 ， 尤 
其 是 信息 箭 的 计算 方法 ， 这 在 后 面 很 多 算法 中 都 有 应 用 。 如 有 打 觉 得 这 
例子 还 是 让 你 体会 不 深 ， 那 也 没关系 ， 就 记 住 定性 的 结论 就 好 了 ， 
只 有 好 处 没有 坏处 。 


7.1 癌 量 和 维度 


向 量 (Vector) 这 个 词 最 初 来 源 于 几何 学 。 


几何 向 量 也 称 为 欧 几 里 得 向 量 ， 通 常 简 称 向 量 、 矢 量 ， 是 指 具 有 
大 小 和 方向 的 几何 对 象 表示 。 为 了 形象 表示 ， 在 平面 几何 和 立体 几何 
中 通常 把 一 个 向 量 画 成 一 个 箭头 。 在 中 学 同样 学 过 用 复数 来 表示 的 向 
量 ， 如 2+3i， 其 实 相 当 于 x 和 y 两 个 向 量 维度 空间 里 的 向 量 ， 是 从 点 

(0, 0) 到 (2, 3) 之 间 引 出 向 量 (图 7-1) ° 


图 7-1 向量 的 表示 


回 量 除了 用 箭头 表示 外 ， 还 有 一 种 在 数据 计算 领域 更 常用 的 方 


法 ， 即 用 (a, b, c, d, ...) 来 表示 。 其 中 ，a、b、c、d 等 每 个 元 素 
都 是 一 个 维度 上 的 数据 取 值 。 在 大 数据 领域 的 计算 对 象 基本 都 是 这 种 


格式 的 回 量 ， 所 以 只 要 理解 这 种 格式 的 人 台 义 束 可 以 了 。 


下 面 通过 具体 的 例子 认识 向 量 的 用 法 。 
例如 ， 在 一 个 企业 的 数据 仓库 中 要 摘 述 一 条 销售 信息 ， 可 以 表示 
AD P: 


CAE, "ROUES, ERIT, 400000) 
括号 里 的 向 量 各 个 维度 分 别 表示 如 下 : 
GEK, mX], REA, E) 


上 面 的 叫做 向 量 实 例 ， 下 面 的 叫做 向 量 定义 。 这 种 向 量 在 计算 机 
里 面 可 以 用 数组 来 实现 ， 也 可 以 在 关系 型 数据 库 里 用 一 行 记录 中 的 字 
段 来 实现 ， 也 可 以 用 其 他 组 件 来 实现 。 不 管用 哪 种 载体 ， 客 观 上 表示 
的 数学 含义 是 没有 差别 的 ， 差 别 仅仅 在 于 在 处 理 这 些 数据 时 所 使 用 的 
语言 或 者 工具 不 同 而 已 ， 所 以 完全 不 用 担心 哪些 语言 文 持 向 量 哪些 语 
言 不 支持 。 下 面 就 是 定义 这 个 向 量 (地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 
额 ) 分 别 在 Python、Java、SQL 这 3 种 语言 中 的 写法 。 


(1) 在 Python 中 的 写法 : 


#PYTHON CODING 
class sales: 


zone = '' 

type = '' 

agency = '' 
sales_amount = 0.00 


(2) 在 Java 中 的 写法 : 


#JAVA CODING 
public class sales { 
public string zone 


public string type: 


public string agency; 


public BigDecimal sales amount. 


(3) 在 SQL 中 的 写法 : 


#SQL CODING 
CREATE TABLE SALES | 


ZONE VARCHAR ( 


20) 


COMMENT “地 区 


TYPE VARCHAR ( 


50) 


COMMENT “产品 类 别 


AGENCY VARCHAR | 


30) 


COMMENT “代理 商 


SALES AMOUNT DECIMAL ( 


18. 


COMMENT “销售 额 


这 些 语 句 都 是 在 各 种 不 同 语言 上 的 网 量 定义 语法 。 在 Python 语言 
和 Java 语 言 里 ， 问 量 的 定义 其 实 束 可 以 理解 成 类 的 定义 ， 疝 量 上 每 个 
不 同 的 属性 束 是 不 同 的 维度 ， 一 个 实例 化 的 对 象 叱 是 一 个 同 量 的 实 
例 。 在 SQL 语 言 里 ， 一 个 表 的 定义 束 是 同 量 的 定义 ， 一 个 同 量 的 实例 
其 实 就 是 表 里 的 一 条 数据 。 


7.1.1 信息 元 余 


一 般 来 说 ， 癌 量 的 每 个 维度 之 间 是 不 相关 的 ， 在 设计 一 个 向 量 时 
也 是 希望 每 个 维度 不 相关 。 如 果 想 知道 维度 如 果 相关 会 有 什么 问题 ， 
举 一 个 向 量 设计 上 的 有 反例， 如 在 某 系 统 里 记录 一 个 个 人 的 信息 。 


回 量 定义 如 下 : 


(姓名 ， 姓 ， 名 ， 出 生日 期 ， 年 龄 ， 芍 驶 证 类 别 ， 初 领 要 照 时 
la], ARER) 


回 量 实例 如 下 : 


(Sk=', "SK', '=', '1986-03-01', 30, 'C1', '2015-01-01', 1) 


在 本 例 中 可 以 看 到 ， 从 一 般 的 逻辑 来 说 , “姓名 ”这 个 维度 是 可 以 
由 “ 姓 *”、“ 名 ”两 个 维度 推断 出 来 的 ,，“ 姓 ”和 “名 ”收尾 相 接 就 能 得 到 “ 姓 
名 ”这 个 维度 。 而 “年 龄 ”是 可 以 从 “出 生日 期 * 这 个 维度 推断 出 来 的 ， 在 
任意 时 刻 使 用 当前 日 期 与 “出 生日 期 * 相 减 束 能 得 到 “年 龄 * 这 个 维 
度 。“ 当 龄 年 限 " 也 十 可 以 通过 “ 初 领 当 照 时 间 ? 推 断 出 来 的 ， 在 任意 时 
刻 使 用 当前 日 期 与 “ 初 领 竺 照 时 间 ” 相 减 束 能 得 到 “ 释 龄 年 限 *”。 所 以 这 
MICKA RE AIR AA, TR EIT OU iets Ex HE 
的 数据 存储 多 于 一 份 的 情况 。 本 例 在 关系 型 数据 库 上 不 满足 设计 第 三 


wn 


范式 (3NF， 这 个 概念 如 果 没 学 过 可 以 名 略 ) 。 对 于 这 种 有 元 余 的 信 
电 ， 还 是 一 分 为 二 来 看 ， 不 要 武断 地 说 一 定 不 可 行 。 
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元 余 的 问题 是 ， 如 条 其 中 一 个 相关 的 字段 发 生变 化 ， 则 另 一 个 字 
段 也 必须 相应 地 做 出 变化 ， 否 则 束 会 出 现 信息 让 盾 或 者 不 一 致 的 现 
象 。 如 现在 搬 述 的 张 三 是 30 岁 ， 明 年 他 就 31 风 了， 是 否 还 需要 一 个 程 
序 功 能 目 动 或 手动 对 这 个 字段 进行 更 新 ?如 果 在 系统 运行 过 程 中 发 现 
在 登记 的 时 候 “ 初 领 等 照 时 间 ” 这 一 字段 填写 有 误 需 要 更 正 ， 那 么 “和 当 龄 
年 限 ” 也 需要 同步 修改 。 这 对 于 保持 数据 一 致 性 来 说 ， 维 护 成 本 显然 是 


会 提高 的 。 


见 余 也 未 必 全 是 缺点 没有 一 丝 优点 。 那 么 它 的 优点 是 什么 呢 ? 再 
来 看 一 个 例子 。 


回 量 定义 如 下 : 


(用 户 ID，1 月 消费 额 ，2 月 消费 额 ，3 月 消费 额 ，4 月 消费 额 ，5 
月 消费 人 额 ，6 月 消费 额 ，7 月 消费 额 ，8 月 消费 额 ，9 月 消费 额 ，10 月 消 
费 额 ，11 月 消费 额 ，12 月 消费 额 ， 全 年 消费 总 额 ) 


回 量 实例 如 下 : 


('0001', 160, 130, 135, 150, 160, 170, 175, 165, 150, 
155, 155, 160, 1865) 


在 这 个 例子 里 ， 有 一 个 全 年 消费 总 额 用 来 做 前 面 12 个 月 的 消费 额 
的 加 和 。 如 果 这 个 系统 里 有 5000 万 用 户 ， 应 该 怎么 统计 这 5000 万 用 户 
一 年 的 消费 总 额 ?” 在 没有 “全 年 消费 总 额 * 这 个 维度 的 情况 下 ， 需 要 让 
计算 机 做 6 亿 个 数值 对 象 的 加 法 〈12 次 x5000 万 ) ， 在 有 了 这 个 维度 的 
情况 下 ， 只 需 对 这 5000 万 个 同 量 的 最 后 一 个 维度 一 一 “全 年 消费 总 
额 ” 做 加 和 ， 即 做 5000 万 个 数值 对 象 的 加 法 即 可 ， 这 两 者 在 计算 效率 上 
有 11 们 的 速率 差距 。 


这 11 倍 速率 的 差距 意味 着 什么 呢 ? 如 果 这 5000 万 个 向 量 的 计算 需 
要 2 小 时 ， 那 么 这 种 计算 可 以 在 凌晨 进行 ， 并 且 次 日 一 早 做 成 报告 。 而 
6 亿 个 向 量 时 间 计 算 很 可 能 需要 22 小 时 ， 那 么 这 种 报告 就 只 能 第 三 天 才 
能 送 达 。 这 不 仅仅 是 一 个 计算 效率 的 问题 ， 甚 至 影响 了 一 个 业务 的 反 
馈 和 完整 流程 。 


至 于 在 具体 的 应 用 场景 里 是 否 使 用 元 余 字段 需要 应 用 者 根据 系统 
设计 的 经 验 和 自己 的 实际 需求 去 判断 ， 应 选择 在 满足 自己 系统 业务 运 
转 要 求 的 前 提 下 "成 本 更 低 的 方式 。 


元 余 信 息 被 作为 加 快 数据 访问 速度 的 手段 应 用 最 多 的 情况 一 般 不 
征 在 一 个 圾 里 设置 见 余 字 段 ， 而 是 在 很 多 海量 数据 的 数据 仓库 里 把 很 
多 小 粒度 的 数据 计算 成 为 以 一 天 、 一 周 、 一 个 月 作为 更 大 粒度 统计 单 
位 的 元 余 信息 表 或 者 指标 信息 表 ， 而 直接 访问 这 些 大 粒度 的 匈 余 数 
据 ， 比 直接 访问 最 小 粒度 的 数据 进行 统计 效率 可 能 快 上 几 千 倍 。 


7.1.2 ”维度 


在 解释 向 量 的 过 程 中 其 实 多 次 提 到 了 维度 这 个 词 。 维 度 的 英文 是 
Demension， 人 们 平时 说 的 3D 游 戏 、3D 电 影 中 的 3D 说 的 就 是 3 个 
Demension， 或 者 说 3 个 维度 的 视觉 效果 ， 以 区 别 过 去 玩 的 和 观看 的 平 
面 视觉 效果 的 2D 游 戏 和 2D 电 影 。 就 连 80 后 们 最 熟悉 的 FC 游戏 90 坦 克 大 
战 也 能 从 2D 搬 到 3D 空 间 (Æ7-201) e 


[7-2 90 坦克 大 战 


维度 指 的 是 参照 系 ， 有 多 少 个 维度 束 有 和 多少 个 参照 系 ，2D 就 是 有 
两 个 参照 系 ，3D 束 是 有 3 个 参照 系 。 这 种 说 法 如 果 还 是 觉得 抽象 ， 那 么 
回 过 头 来 看 刚才 的 例子 。 


这 里 有 一 个 向 量 GER, ERE, WERIT, 400000) , 3825 
地 说 是 有 4 个 维度 〈 地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 ) 。 但 是 仔细 观 


察 不 难 发 现 ， 销 售 额 和 其 他 3 个 维度 好 像 略 有 不 同 ， 它 的 值 所 发 生 的 变 
化 更 容易 引起 人 们 的 研究 兴趣 ， 因 而 这 类 维度 通常 会 被 当做 研究 对 象 
一 一 虽然 把 它 当 做 一 般 参考 维度 来 进行 数据 分 析 也 不 一 定 没 有 意义 。 
在 这 个 例子 里 ， 研 究 对 象 是 销售 额 ， 有 3 个 参考 维度 : 地 区 、 产 品类 
别 、 代 理 两 。 后 面 将 会 介绍 这 种 情况 下 怎么 去 做 相关 的 研究。 


维度 的 设置 一 般 都 是 具有 “ 正 交 性 ”的 。“ 正 交 性 ”是 从 几何 学 中 借用 
来 的 术语 。 如 采 两 条 直线 相交 成 直角 ， 它 们 束 是 正 交 的 。 用 癌 量 术语 
来 说 ， 这 两 条 直线 互 不 “依赖 ”。 一 个 点 沿 着 某 一 条 直线 移动 ， 该 点 投 
影 到 另 一 条 直线 上 的 位 置 始终 不 变 (图 7-3) 。 


以 平面 直角 坐标 系 为 例 ， 其 中 X 轴 和 Y 轴 走 垂 直 的 ， 也 是 正 区 的 。 
如 果 有 一 个 点 沿 着 X 轴 移动 ， 不 论 它 怎么 移动 ， 它 到 Y 轴 上 的 投影 都 会 
fg (0, 0) 坐标 点 上 ; 同样 ， 如 果 有 一 个 点 沿 着 Y 轴 移动 ， 不 论 它 怎么 
移动 ， 它 到 X 轴 上 的 投影 都 会 在 (0, 0) 坐标 点 上 。 在 这 个 坐标 系 里 ， 
X、Y 两 个 维度 就 是 正 交 的 。 


———————————————————— 
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Al7-3 ”两 条 直线 正 交 


这 样 一 个 特点 ， 正 交 向 量 的 任何 


如 琳 沉 得 不 是 很 好 理解 那 整 记 住 


度 ， 值 发 生变 化 时 都 不 会 引起 其 他 的 维度 的 值 变化 。 看 前 面 举 


一 个 维 
过 的 例子 。 


器 量 定义 如 下 : 


He, BUR Al, WM AY 


(Rb, WE, 名， 出 生日 期 ， 年 


龄 年 限 ) 
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间 ， 


器 量 实例 如 下 : 


(4 张 三 '， 张 '，' 三 '，'1986-03-01，30，'C1，'?2015-01-01，1) 


在 这 个 例子 里 ,，“ 姓 ”和 “名 ”这 两 个 维度 相互 之 间 是 独立 的 ， 也 就 十 
正 交 的 ,“ 姓 ”不 会 因为 “名 ”变化 而 变化 ,“ 名 ”也 不 会 因为 “ 姓 ” 变 化 而 变 
化 。 但 是 ,“ 姓 名 ”是 依赖 于 “ 姓 ” 和 “名 ”这 两 个 维度 的 ,，“ 姓 "和 “名 ”任何 
一 个 发 生变 化 “姓名 ”这 个 维度 的 值 都 会 有 变化 。 


一 般 来 说 ， 向 量 的 设计 推荐 采用 维度 正 交 的 原则 ， 主 要 原因 也 是 
为 了 避免 两 个 非 正 交 维 度 不 一 致 时 不 知道 该 采信 哪 种 更 好 。 


[1] 图 乒 来 源 于 百度 图 库 。 


7.2 ”和 窍 阵 和 和 窍 阵 计算 


《黑客 带 国 》 (The Matrix， 也 有 译作 《 骇 客 帝国 》 的 ) 是 一 部 非 
彰 类 彩 的 科 约 影 斤 ， 其 英文 名 字 里 的 Matrix 吏 是 矩阵 的 意思 。 


之 所 以 电影 会 取 名 为 Matrix 是 取 义 未 来 大 规模 机 玫 智 能 的 世界 都 
古 以 无 处 不 在 的 大 规模 矩阵 存储 和 大 规模 矩阵 运算 构成 的 ， 和 矩阵 是 其 
实现 的 数学 基础 。 


和 窍 阵 的 研究 历史 悠 入 ， 拉 了 丁 方 阵 和 幻 方 在 史前 年 代 已 有 人 研究。 
但 是， 在 19 世 纪 才 真正 成 为 一 种 比较 完整 的 数学 分 学 科 概 念 。 英 国 数 
学 家 凯利 被 公认 为 矩阵 论 的 葛 基 人 “。 他 从 1858 年 开始 ， 发 表 了 《 算 阵 
论 的 研究 报告 》 等 一 系列 关于 答 阵 的 专门 论文 ， 人 研究 了 矩阵 的 运算 
律 、 和 矩阵 的 敢 以 及 转 置 和 特征 多 项 式 方程 。 


矩阵 作为 一 种 独立 的 数据 构建 单元 ， 有 着 目 己 约定 的 矩阵 相 加 、 
矩阵 相 减 、 和 矩阵 数 乘 、 和 矩阵 转 置 等 完整 计算 逻辑 。 例 如 : 


Ay, 015 05 
O51 05, 054 
A31 055 034 


O4 Ay 04 


这 里 的 A 就 是 一 个 矩阵 ， 通 第 说 一 个 矩阵 是 mxn 答 了 省 ， 束 是 说 有 m 
行 和 n 列 。 在 这 个 例子 里 ，A 是 一 个 4x3 的 和 矩阵。 每 个 矩阵 的 元 素 anm 都 
是 一 个 数字 。 像 不 像 二 维 数组 和 数据 库 里 的 表 ? 


和 窍 阵 是 有 着 完整 的 计算 定义 的 ， 常 用 的 窍 阵 计算 规则 如 下 。 
1. 和 矩阵 的 加 法 


假设 矩阵 


JERE 


ll 
|. — sl 
C — 
Ww N 
U32 OV 
mani] 


6 3 
A+B= 5 


规则 很 商 单 ， 殉 是 直接 把 对 应 “坐标 ”的 值 相 加 。 请 注意 ， 只 有 这 
种 m 和 n 分 别 相同 的 两 个 矩阵 才能 做 加 法 ， 这 种 m 和 n 分 别 相 等 的 两 个 
和 窍 阵 叫做 同型 矩阵 。 


W WW 
Un NO 
LL L——— 


2. 和 矩阵 的 诚 法 


假设 矩阵 


和 矩阵 
f is 
B= 
0 3 3 
» 4-1-3 
ES lig ae ust 


减法 殉 是 直接 把 对 应 “坐标 ”的 值 相 减 。 和 矩阵 减法 也 要 求 必 须 是 同 
型 矩阵 。 


3 和 矩阵 的 数 乘 
ERAI 
513 
EF ; 0 | 
那么 


PERE ACT R BU TE REA SET IT PARLUX TARE BL o 
4 FER APS EE 


假设 矩阵 


by 

|| 
wo 一 tn 
Nm O p 


和 窍 阵 的 转 置 计算 相当 于 把 矩阵 治 着 对 角 线 翻 了 个 身 ， 行 变 列 ， 列 
变 行 。 一 般 习惯 把 矩阵 的 转 置 记 做 AT。 在 这 个 例子 里 ，B=AT 。 


5. 和 矩阵 的 内 积 
只 了 解 m=1 和 和 n=1 这 两 个 矩阵 做 内 积 的 算法 即 可 。 


假设 矩阵 


AY, 


4 
3 
B= | 
| 1 
A 和 B 的 内 积 : 
C=A-B=) AB, 
i=l 
在 这 个 例子 里 


C=A+ B=1+44+3°34+5+2+7> 1=30 
URA ^ BRAS ABEEAI P: 


A=[1 3 5 7] 
B=|4 3 2 |] 


那么 可 否 将 两 个 矩阵 的 对 应 元 素 两 两 相 乘 然后 加 和 呢 ? 也 是 可 以 
这 就 可 以 用 前 面 介绍 的 矩阵 转 置 的 形式 来 表示 。 


AT B 和 BT A 这 两 种 形式 都 会 得 到 30 这 个 结果 ， 因 为 计算 过 程 没 有 


什么 差别 都 是 1x4+3x3+5x2+7x1=30。 


在 高 级 人 工 智能 里 的 矩阵 运算 使 用 得 极其 复杂 ， 在 入 门 阶段 只 
了 解 基本 的 矩阵 相 加 、 和 矩阵 相 减 、 甜 阵 数 乘 、 甜 阵 转 置 即 可 。 在 本 书 
的 后 面神经 网 络 的 部 分 会 有 的 地 方 有 3 引 用， 做 到 心里 有 数 束 好 ， 在 公 
司 日 党 指标 运营 里 矩阵 计算 几乎 用 不 到 。 


73 BRIA 

常见 的 魔方 是 一 个 3x3x3 大 小 的 方块 ， 也 就 是 以 27 个 小 正方 体 为 单 
位 的 组 合体 。 

想象 一 下 ， 有 27 个 透明 的 立方 体 ， 对 这 27 个 方块 每 一 个 都 做 上 标 
记 ， 如 图 7-4 所 示 。 


代理 商 


单位 : (万 元 ) 


网 上 商城 D 


网 上 商城 J 


网 上 商城 了 


图 7-4 ”标记 27 个 方块 


把 向 量 (地 区 ， 产 品类 别 ， 代 理 商 ， 销 售 额 分 解 一 下 ， 每 一 条 
边 都 写 上 一 个 维度 的 值 ， 每 个 立方 体 中 间 都 写 一 个 数字 ， 再 组 合 起 
来 ， 发 现 原来 的 27 个 向 量 在 立体 空间 里 变 得 非常 直观 。 


如 有 果 觉 得 数字 不 够 给 人 眼睛 产生 刺激 ， 那 束 试 试 另 一 种 方式 ， 把 
数字 对 应 的 值 做 一 下 颜色 深度 标识 ， 数 字 大 的 颜色 深 ， 数 字 小 的 颜色 
浅 ， 如 图 7-5 所 示 。 


代理 商 


单位 : (万 元 ) 


网 上 商城 J 


网 上 商城 


图 7-5 ”用 颜色 标记 


颜色 深浅 一 般 的 通常 不 会 引起 人 们 的 注意 ， 最 吸引 人 注意 的 其 实 
征 那 些 颜 色 特别 深 的 和 颜色 特别 浅 的 。 其 实 也 不 难 理解 ， 在 一 群 人 
里 ， 比 较 引 人 注意 的 是 什么 样 的 人 呢 ? 个子 特别 高 的 ， 个 子 特别 矮 
的 ， 长 得 特别 漂亮 的 ， 长 得 特别 丑 的 ， 长 得 特别 胖 的 ， 长 得 特别 瘦 


的 。 也 就 是 说 ， 吸 引 人 注 意 的 一 定 是 和 众多 样本 相去 较 远 的 样本 ， 而 
比较 “ 平 良 ” 的 样本 通常 不 太 引 人 注意 。 


上 壕 数 据 “ 魔 方 ” 就 是 数据 立方 体 ， 是 一 种 比较 直观 的 大 数据 可 视 
化 技术 ， 它 能 够 帮助 人 们 在 一 个 研究 对 象 和 3 个 维度 (及 以 下 ) 的 情况 
下 快速 找到 让 人 感 兴趣 的 那些 小 数据 块 ， 快 速 定位 “问题 所在。 从 例 
子 里 容易 看 出 来 什么 地 区 、 什 么 产品 类 别 、 什 么 代理 商 的 销售 额度 格 
外 高 或 者 格外 低 ， 在 同一 个 地 区 同一 个 产品 类 别 里 ， 哪 个 代理 商 销售 
的 额度 格外 高 或 者 格外 低 。 


但 是 ， 一 个 向 量 可 能 不 止 有 3 个 维度 而 且 每 个 维度 里 只 有 3 个 枚 举 
值 ， 有 的 维度 可 能 有 几 十 个 甚至 上 百 个 枚 举 值 ， 这 时 立方 体会 变 得 很 
复 洲 。 要 想 看 得 比较 细致 整 只 能 做 切片 处 理 ， 如 图 7-6 所 示 。 


需要 强调 的 是 ， 数 据 立 方 体 这 种 视角 在 一 些 商业 BI 软 件 里 提供 了 
很 好 的 互动 查询 工具 ， 但 是 很 多 自 研 发 的 企业 BI 部 门 可 能 就 需要 自己 
再 去 摸索 这 种 视图 如 何 开发 了 。 


单位 : (万 元 ) 


网 上 商城 D 


图 7-6 WR 


74 上 卷 和 下 外 


数据 立方 体 帮助 人 们 快速 定位 “问题 *。 但 是 数据 立方 体 还 有 一 个 
问题 ， 就 是 一 下 子 展 开 这 么 多 维度 值 会 让 人 眼花 综 乱 。 


目前 人 类 通过 研究 发 现 ， 人 类 自身 的 机 械 记忆 极限 是 5~9 个 对 象 ， 
也 就 是 说 正常 情况 下 人 记 住 5 个 毫 无 关联 的 对 象 是 没 问 题 的 ， 记 忆 好 一 
些 的 可 以 记 住 9 个 ， 只 有 经 过 特殊 训练 的 人 可 能 用 其 他 技巧 能 够 记 住 更 
多 。 多 于 9 个 的 对 象 常 人 就 很 难 记得 清楚 了 ， 也 很 难 一 下 子 掌握 。 那 么 
能 否 用 逐 层 递 进 的 方式 对 数据 立方 体 进行 归纳 式 的 管理 呢 ? 答案 是 肯 
定 的 。 这 就 是 将 要 介绍 的 上 卷 (Rollup) 和 下 外 (Drilldown) ° 


在 一 个 视图 下 , “向 下 钻 入 ”一 个 立方 体 时 可 以 看 到 更 多 的 细 市 ， 
而 当 人 们 对 当前 的 视图 不 再 有 兴趣 需要 回 退 到 上 一 级 别 的 视图 时 ， 可 
以 把 当前 视图 “向 上 卷 起 *”， 如 图 7-7 所 示 。 这 样 在 每 个 视图 中 都 能 在 有 
限 的 研究 对 象 里 较 快 定位 到 “问题 ?所 在 ， 这 就 是 上 卷 和 下 铅 两 种 操作 
的 应 用 。 


图 7-7 上 卷 和 下 外 ( 见 彩 插 ) 


当然 ， 数 据 立 方 体 的 局 限 性 也 是 很 明显 的 ， 即 如 采 问 量 更 多 一 一 
超过 3 个 维度 ， 束 无 法 在 空间 里 画 出 一 个 立方 体 进行 呈现 了 ， 而 数据 挖 
扎 很 多 时 候 研究 的 数据 远 远 比 3 个 维度 要 多 ， 所 以 在 高 维度 数据 的 研究 
中 ， 虽 然 数 据 立 方 体 的 逻辑 客观 存在 ， 但 是 在 对 其 进行 数据 挖掘 和 机 
器 学 习 的 过 程 中 基本 用 不 到 数据 立方 体 的 可 视 化 技术 。 读 者 在 实现 的 
时 候 请 酌情 进行 视图 选择 。 
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天 于 多 维 癌 量 空间 ， 只 要 掌握 向 量 的 定义 、 维 度 的 定义 即 可 。 至 
于 正 交 维度 ， 请 读者 注意 在 日 常生 产生 活 中 的 设计 技巧 。 


Bee [aA 


回归 是 一 种 解 题 方法 ， 或 者 说 “学 习 ” 方 法 ， 也 十 机 器 学 习 中 比较 
重要 的 概念 。 没 有 学 过 回归 的 朋友 可 能 看 到 回归 这 个 词 猜 不 出 这 是 个 
什么 概念 ， 觉 得 很 神秘 。 其 实 我 平生 第 一 次 看 到 这 个 词 的 时 候 也 猜 不 
He TIT AHA, "IBS? ...... 回 哪儿 去 ? ”。 


回归 的 英文 是 Regression， 单 词 原型 的 regress 大 概 的 意思 十 “ 回 
回归 分 析 的 意思 借用 了 “倒退 ， 
倒 推 "的 合 义 。 人 简单 说 整 古 “由 果 索 因 ” 的 过 程 ， 是 一 种 归纳 的 思想 
当 看 到 大 量 的 事实 所 呈现 的 样 态 ， 推 断 出 原因 是 如 何 的 ， 当 看 到 大 量 
的 数字 对 (pair) 是 某 种 样 态 ， 推 断 出 它们 之 间 强 售 的 天 系 是 如 何 
HY ° 


退 ， 退 化 ， 倒 退 ”。 其 实 Regression 
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线性 回归 十 利用 数理 统计 学 中 的 回归 分 析 来 确定 两 种 或 两 种 以 上 
变量 间 相 互 依赖 的 定量 关系 的 一 种 统计 分 析 方 法 。 其 表达 形式 如 下 : 


y=ax+b+e 
e 为 误差 服从 均值 为 0 的 正 态 分 布 。 
简单 说 大 概 是 这 样 ， 通 过 统计 或 者 实验 ， 可 能 会 得 到 两 种 值 (两 
个 系列 的 值 ) 的 对 应 关系 ， 这 两 种 值 一 种 是 y 一 种 是 x， 每 组 y 和 x 是 成 


对 出 现 的 一 一 对 应 ， 最 后 可 以 用 一 种 y=ax+b+e 的 表达 式 来 表示 它们 的 


而 这 其 中 的 e 不 是 一 个 定 值 ， 它 和 y、x 对 应 着 出 现 (有 一 对 y 和 x， 
BLA Te) 。 这 个 e 的 值 满足 正 态 分 布 ，h 为 0。 


有 人 说 还 古 y=ax+b 看 着 比较 舒服 ，a 是 斜率 ，b 是 截 距 ， 初 中 时 大 
家 都 学 过 。 但 是 y=ax+b+e 看 着 别扭 ， 我 们 后 面 来 说 说 这 个 e 是 怎么 出 来 
的 。 


下 面 看 一 个 完整 的 操作 过 程 。 
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回归 这 种 方法 我 们 在 中 学 课本 里 是 没有 讲 过 的 ， 但 是 他 的 思想 我 
们 可 是 早 在 高 中 一 年 级 的 时 候 物 理 课 上 就 学 过 的 ， 只 是 我 们 没 意 识 
到 。 


回忆 一 下 ， 还 记得 高 中 的 时 候 学 过 一 个 用 打点 计时 器 计算 重力 加 
速度 g 的 大 小 的 实验 吗 ? 


将 一 个 小 铁 球 用 一 根 线 挫 在 一 个 很 轻 的 小 车 上 ， 小 车 后 面 拉 着 一 
根 长 长 的 有 之 米 刻度 的 纸 带 ， 一 个 打点 计时 器 一 边 电源 接着 220V 50Hz 
的 市 电 ， 有 一 根 圆 珠 笔尖 肪 在 纸 之 上 方 ， 如 图 8-1 趾 所 示 。 

电磁 打点 
细 线 VE a 计时 器 


Y 
= 
2a 
— 


图 8-1 AFT PN a tR S ZI DR 


当 接 通电 源 后 ， 小 铁 球 由 于 重力 作用 开始 做 目 由 落体 的 运动 ， 同 
时 拉 着 小 车 越 跑 越 快 ， 后 面 纸 珊 上 圆珠笔 尖 会 以 每 秒 50 次 的 速度 不 停 


打点 ， 这 样 在 纸 带 上 留 下 许多 的 点 ， 每 个 点 之 间 的 距离 会 越 来 越 大 ， 
每 个 相 邻 点 之 间 的 打点 时 间 差 为 0.02s， 如 图 8-2 7! Bras e 


1 
H e 


图 8-2 打出 的 点 
这 个 实验 的 先决 条 件 是 牛顿 第 二 定律 : 
F=ma 
F 是 物体 受到 的 外 力 大 小 ，m 是 物体 的 质量 ，a 是 产生 的 加 速度 。 由 
于 在 重力 的 作用 下 ， 所 以 
G=mg 


G 是 物体 所 受 重 力 ，m 是 物体 质量 ，8g 是 重力 加 速度 ， 也 就 是 要 求 
的 值 。 


我 们 现在 手 里 得 到 什么 了 ? 是 一 个 位 移 的 记录 ， 即 纸 带 。 

在 处 理 数 据 的 时 候 我 们 用 了 一 个 技巧 ， 即 计算 每 个 点 之 间 的 间隔 
Aso. OS, Asx, 45,7" 

so 就 是 to Flt, 两 个 时 刻 所 打点 的 位 移 差距 。 


位 移 s 和 时 间 t 的 关系 是 什么 呢 ? 我 们 都 知道 : 
s=vt 
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钟 就 跑 100 米 ， 这 个 对 于 匀速 运动 肯定 没 错 。 


vef (t) 示意 图 如 图 8-3 所 示 ， 横 坐标 轴 为 t， 纵 坐标 轴 为 v。 当然 只 
有 t 大 于 0 的 部 分 是 有 意义 的 ， 如 果 想 知道 当 t=30 时 ，s 为 多 少 ， 只 需要 
在 t=30 的 位 置 把 这 个 图 形 切 开 ， 求 为 从 0 到 30，v=10 的 长 方形 面积 即 可 


(s=vt) ° 


图 8-3 ”匀速 直 线 运 动 


如 有 果 运 动 速度 是 不 均匀 的 怎么 办 呢 ? 可 以 用 积分 的 方法 : 


s= [ro .dt 


其 中 v (0 是 一 个 v=f (0 的 画 数 ， 是 一 个 变化 的 v 和 对 应 时 间 t 的 
关系 ， 后 面 的 dt 是 At 的 概念 ， 也 会 有 人 习惯 地 写成 这 种 形式 : 


s(t) = [w .dx 


整个 积分 式 的 含义 就 是 位 移 s 古 一 个 随 着 t 变 化 的 函数 ， 而 整个 过 程 
中 s 是 由 这 一 刻 瞬间 的 速度 v (t) 和 瞬间 的 时 间 长 度 dt (At) 相 乘 而 来 
的 。 听 起 来 好 像 症 所 有 的 值 都 在 变化 很 难 把 握 ， 谈 者 移 别 令 神 ， 往 下 
Be 


在 这 里 先 讲 一 个 小 故事 。 


德国 著名 的 教学 家 、 物 理学 家 波恩 哈 德 . 黎 曼 图 8-4. 发 明了 一 种 很 
有 名 的 丈量 方法 一 一 “ 歼 曼 和 ”。 这 个 思想 很 简单 ， 大 概 如 下 。 


图 8-4 Wath ERE 
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把 它 划 分 成 很 多 小 长 方形 ， 每 个 小 长 方形 的 面积 都 可 以 比较 容易 
用 长 乘 以 宽 的 方式 求 出 来 ， 然 后 再 加 到 一 起 ， 束 能 算出 整个 不 规则 土 
地 的 面积 了 。 这 里 有 误差 怎么 办 ? 可 以 尽量 把 长 方形 画 罕 一 些 ， 越 
宕 ， 面 积 和 越 逼 近 “ 真 实 ” 的 土地 面积 ， 只 要 这 个 误差 到 达 人 允许 的 范围 
内 ， 那 这 个 面积 和 基本 就 是 所 要 求 的 面积 ， 如 图 8-5 所 示 。 这 个 方法 可 
不 土 ， 人 家 实际 上 用 的 可 是 正经 是 微 积分 的 思想 哆 。 


图 8-5 ”和 歼 曼 和 示意 图 
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高 度 ， 只 是 v 这 个 高 度 是 变化 的 。 匀 速 的 时 候 v 是 一 个 定 值 ， 算 出 来 是 


一 个 长 方形 面积 ， 这 束 是 一 个 歼 曼 和 求 和 的 过 程 。 


v=v,tgt 
其 中 由 于 一 开始 小 球 和 车 是 静止 的 ， 所 以 vo =0 是 知道 的 。 那 么 
v=gt 
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这 样 求 位 移 的 方法 成 了 求 三 角形 面积 的 方法 了 。 如 图 8-6 所 示 ， 
10s、20s、30s、40s、50s 时 所 产生 的 位 移 束 是 此 时 的 t 刻 度 纵 线 与 轴 以 
及 函数 曲线 v=vo +gt 所 围 成 的 面积 。 


图 8-6 所 为 v=vo +gt 函 数 图 线 ， 当 然 ， 也 只 是 t 大 于 零 的 部 分 才 有 


Sor 
E 
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ASu=S1 一 80 
=(1/2) x g x (vot gt,) x t,-(1/2) x g x (vot gto) x to 
=(1/2) x gx (t-t) 
=(1/2) x gx (ttt) 19) 
=(1/2)x g x At x (ti+to) 


其 中 At 束 是 0.02s， 指 的 是 每 次 打点 的 间隔 。 


10 20 30 40 50 60 70 80 90 100 110 120 


Kl8-6 v-vO-gtER 2 E 


以 此 类 推 


A $17$95—5, 

=(1/2)x gx At x (ttt) 
A SS3 55 

-(1/2) x gx At x (tstt,) 
A Sn Sn $n 


=(1/2)x gx At x (tf, qt.) 


也 就 是 说 ， 每 两 个 临近 的 点 之 间 的 距离 都 可 以 用 这 个 公式 来 套 
算 ， 因 为 这 个 公式 本 身 就 是 计算 位 移 差 的 公式 。 


如 果 把 临近 的 位 移 差 做 减法 会 得 到 什么 呢 ? 
As;— As =—C/2) ex Afx(5-t)—- (1/2) xgx. Atx (G4) 
=(1/2) x gx At x (t,— t) 
-gAt 
As o— As,=(1/2) x gx Atx (t,t+t,)— (1/2) xg x At x (ttti) 
=(1/2)x gx At x (t,— t4) 
-gAf 


所 有 临近 的 两 个 点 之 间 的 距离 之 差 为 一 个 确定 的 数 子 ， 就 是 gAt? 
，g 和 At 都 是 定 值 ， 只 是 现在 还 假 逆 不 知道 g 的 具体 大 小 。 那 下 面 也 束 
更 好 办 了 ， 把 每 个 临近 的 距离 兰 都 列 出 来 ， 平 均一 下 就 能 得 到 gAt 的 大 
小 ， 再 除 以 At， 就 可 以 得 到 g。 
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点 区 别 ， 教 科 书 上 是 把 临近 的 6 个 点 的 莽 作 为 一 个 单位 求 差 的 ， 这 主要 
是 为 了 尽 可 能 减 小 误差 。 

还 可 以 用 v-t 图 法 进行 绘图 。 有 了 瞬时 速度 公式 


yv—vgtgt—gf 


Va B A 


党 试 一 下 能 不 能 从 最 直观 量 取 到 的 位 移 s 的 差 值得 到 和 v 有 关 的 公 
THe: 
As,+As = (1/2) x gx Atx (t,+4,)+ (1/2) x gx Atx (t,t) 
= (1/2)x gx Atx (tttittitto) 
=(1/2)xgx Atx (At+ttttt41,-—Ad 
=(1/2)xgx4x Atxt, 


—2xgx Atxt, 
As:+As.. = 2 XX Atx ^ 
( A Sn A Sn-1)/2 A t -8 x Ln 


这 里 的 w 也 就 表示 第 n 个 0.02s 的 瞬时 速度 可 以 直接 通过 测量 位 移 差 
RER, Mv, 上 是 可 以 直接 得 到 n 和 v 的 对 应 关系 的 。 如 图 8-7 ^! 所 示 ， 
在 坐标 纸 上 画 一 条 直线 穿 过 这 些 点 。 
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图 8-7 v 和 t 的 关系 示意 图 


图 8-7 中 的 做 点 用 一 条 直线 连接 ， 束 可 以 得 到 一 个 比较 粗糙 的 v=gt 
的 函数 ， 笠 率 吏 是 g， 直 接 测 量 即 可 得 出 。 
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归 。 刚 才 用 的 是 划 线 穿 点 的 方法 来 求 一 个 粗略 的 v=gt。 这 种 思路 本 身 束 
征 使 用 线性 回归 的 方法 。 


假设 最 后 得 到 的 数值 如 表 8-1 所 示 。 


表 8-1 n 和 v, 的 数值 


试 着 用 Python 编程 ， 用 线性 回归 的 方法 实现 这 个 例子 : 


import numpy as np 
import matplotlib.pyplot as plt 
# 原 始 数据 


x = [1. 


0.389, 


0.580, 


0.783, 


0.980, 


1.177. 


1.380, 


1.575, 


1.771] 
A - np.vstack ( 


[x 


np.ones | 


len ( 


= 
aM I th 


Yd vd c od n n d d d 


最 小 二 乘法 函数 


ANMNTONON OAD 
LL LL LC LL LL LL raura 


— BS 
HHHHHHHH HH 


ja 


Y 


b = np.linalg.lstsq( 


[0] 
# 续 换 成 


numpy array 
x = np.array ( 


y = np.array ( 


plt.plot (| 


label='Original data' 


markersize=10) 


plt.plot ( 


label-'Fitted line' 


plt.show 0 


画 出 的 图 形 如 图 8-8 所 示 。 


回归 在 数据 挖掘 算法 里 也 有 着 举足轻重 的 地 位 ， 在 R 语 言 里 ， 在 
Mahout 等 开源 数据 挖掘 框架 里 部 有 比较 好 的 文 持 。 如 末 读 考 有 兴趣 ， 
可 以 再 找 R 语 言 的 环境 或 者 Mahout 做 一 下 实 答 。 


刚刚 在 打点 计时 器 的 实验 里 用 直线 穿 过 众多 散 点 的 方式 可 以 得 到 
一 个 比较 粗糙 的 v=gt 的 画 数 。 说 它 粗 糙 的 原因 很 商 单 ， 因 为 这 条 线 是 根 
HEFTER MERE, MERTEM, NEHE ENEE 
大 ， 市 电 是 不 是 标准 的 50Hz， 以 及 空气 阻力 大 小 如 何等 因素 都 会 影 啊 
打点 的 准确 性 。 这 些 因 素 也 会 导致 nr 和 vw 的 比率 在 每 个 打点 瞬间 记录 的 
不 稳定 ， 或 比 理想 值 大 或 比 理想 值 小 。 而且 在 画 这 条 直线 穿 过 这 些 点 
时 也 可 能 会 画 不 准 ， 可 能 会 有 儿 种 画 法 ， 每 种 男 法 在 手法 上 略 有 侦 产 
而 画 出 来 都 能 从 中 间 穿 过 去 ， 且 都 不 能 算 错 。 不 只 在 这 个 例子 里 ， 再 
换 任何 一 个 场景 ， 通 过 统计 或 实验 产生 的 这 样 一 组 对 应 关系 同样 都 会 
有 类 似 的 问题 。 


&j8-8 画 出 的 图 形 


这 种 把 平面 上 一 系列 的 点 用 一 条 光 汗 的 曲线 连接 起 来 的 过 程 瓯 叫 
做 拟 合 一 一 刚刚 用 一 条 函数 曲线 v=gt 来 进行 了 拟 合 。 而 多 种 拟 合 方法 究 
竟 哪 一 种 画 法 最 科学 呢 ? 下面 将 介绍 分 析 的 方法 ， 即 残 差分 析 。 


[1] 图 片 来 源 于 百度 图 库 。 
[2] 图 片 来 源 于 百度 图 库 。 
[3] 图 片 来 源 于 百度 图 库 。 
[4] 图 片 来 源 于 百度 图 库 。 


8.3. PRATT 


刚刚 已 经 党 试 着 做 过 拟 合 这 个 过 程 了 ， 在 前 面 提 到 过 ， 在 线性 回 
归 中 希望 最 终 得 到 一 个 范 数 y=ax+b+te 来 表示 y 和 x 的 关系。 


从 前 面 的 打点 计时 器 的 例子 来 看 ， 从 理论 上 推定 v=gt， 而 在 实验 中 
产生 的 其 实 是 一 个 不 太 准 确 的 函数 v=gtre， 这 里 面 没有 b (vo) 这 一 项 
征 因 为 vo 是 0。 那 问题 束 转 化 为 ，g 究 葛 取 多 少 才 能 让 e 最 小 昵 ?这 个 过 
程 束 是 残 震 分析， 而 最 终 得 到 的 结果 束 是 要 计算 出 一 个 g， 使 得 e 为 误 
差 服 从 均值 为 0 的 正 态 分 布 。 定 性 地 说 就 是 在 拟 合 的 过 程 中 ， 每 一 个 点 
所 产生 的 误差 e 大 部 分 在 0 附近 ， 而 越 远离 0 误差 的 e 越 少 越 好 。 


有 一 种 非常 经 典 的 用 来 进行 线性 回归 中 的 系数 猜测 的 方法 一 一 基 
小 二 乘法 。 推 寻 过 程 对 于 没有 学 过 微 积 分 的 读者 可 能 会 比较 复杂 ， 下 
面 只 简单 介绍 原理 。 

假设 有 多 个 x 和 y 的 样本 值 ， 同 时 竹 试 用 y=ax+b+e 来 拟 合 ， 可 以 得 
到 


e|=|ax+b—y 


也 就 是 说 误差 大 小 其 实 是 猜想 的 ax+b 的 值 和 观测 到 的 y 值 之 间 的 差 
值 。 试 着 把 所 有 的 |e| 都 求 和 。 构 造 一 个 芳 数 : 


OE * (ax, * b — y,) 


i=l 

Q 指 根据 每 一 组 样本 里 的 x 拟 合 得 到 的 y (也 就 是 ax+b) 和 观察 到 的 
样本 里 的 y 都 做 一 个 差 ， 把 差 平 方 后 求 和 。Q 束 是 每 一 个 le 的 和 ， 现 在 
的 问题 转化 为 让 a 和 b 分 别 等 于 什么 值 时 Q 最 小 〈 也 就 是 所 有 的 lel 的 加 和 


最 小 ) 
即 
oe _0 
Ca 
A: 
CO Jii 
ôb 
这 两 个 表达 式 的 数学 含义 是 ，Q 是 一 个 a 和 b 作 为 目 变 量 的 二 元 函 
数 ，Q 分 别 对 a 和 b 求 偏 微分 ， 满 足 每 个 偏 微 分 方程 为 0 的 a、b 变 量 的 值 
就 是 要 找 的 值 。 
如 二 元 一 次 方程 组 


y=ax +bx+e 


^ 


| b v 4ac -b° | 
yol| x + . 
i | | 4a- 


y 的 极 值 为 x=b/2a 时 的 值 。 


这 里 面 其 实 没 有 用 到 高 等 数学 里 求 导数 的 概念 ， 只 是 用 了 算数 平 
方 和 大 于 等 于 零 的 性 质 来 确定 极 值 的 位 置 ， 当 平方 项 为 0 时 ，y 一 定 是 
极 值 ， 有 
4ac 一 六 


y = ^?) 
Aa” 


= 


an RAN KAQY BS BaKS, CNARE- SBM, MIX 
函数 称 为 导 函 数 ， 简 称 导数 。 一 般 来 说 ， 导 数 里 面 还 是 会 由 a 作 为 自 变 
量 的 ， 而 导数 的 函数 值 就 是 Q 这 个 函数 在 a 点 上 的 切线 斜率 〈 本 例 不 考 
虑 不 可 导 的 情况 ) 。 可 以 想象 ，Q 是 一 个 曲线 函数 ， 既 然 是 曲线 ， 在 每 
个 点 上 束 有 切线 ， 让 切线 随 着 Q 函 数 的 曲线 滑动 ， 切 线 的 斜率 也 会 跟着 


| , 4dac—b 


=| "EAF 
变化 ， 而 Q 画 数 的 极 值 应 该 在 切线 斜率 为 0 外 ， 如 [22] te 过 
例子 中 的 极限 值 位 置 。 切 线 应 该 是 一 条 水 平 线 。 


如 图 8-9 所 示 ，AB 直 线 从 左 向 右 紧 贴 着 y=x? 曲线 裤 动 ， 让 切 点 一 
直 沿 着 y=x? 曲线 从 小 到 大 变化 。 其 中 切线 斜率 为 0 的 地 方 恰好 是 y=0 (x 
A) 的 位 置 。 二 维 空间 的 曲线 是 这 样 ， 三 维 空间 的 切线 通常 是 沿 着 曲 
面 方 的 x 轴 和 y 轴 的 方向 作 的 ， 如 图 8-10 所 示 为 z=x2 +y? 的 图 像 ， 先 做 一 


个 剖面 。 痢 面 本 身 也 会 形成 一 个 二 维 的 曲线 方程 ， 再 让 切线 沿 着 这 个 
剖面 上 的 二 维 曲线 方程 滑动 ， 找 到 斜率 为 0 的 地 方 。 这 也 就 是 名 各 
各 目的 含义 了 。 


A 4 yx 
" 3 
B 2 
B 1 4 
: NLA 
AB 3 23 IX i 2 3 4 


图 8-9 求 曲 线 上 和 斜率 为 0 的 地 方 


AUS -0, Hor -0， 解 出 这 两 个 方程 之 后 就 能 分 别 找到 a 的 取 什 
能 让 Q 产 生 极 值 的 条 件 ， 以 及 b 的 取 值 能 让 Q 产 生 极 值 的 条 件 ， 即 找到 


了 a 、b 两 个 维度 上 类似 ” ae] 


分 别 求 导 后 : 


找 满足 上 式 的 a 和 b 的 取 值 。Q 古 
截 距 ， 现 在 要 能 找到 一 个 极 值 必定 是 一 个 使 Q 最 小 的 极 值 。 证 明 略 ， 


者 可 以 想像 用 直线 在 纸 上 穿 点 的 过 程 ， 席 小 慎 微 地 


\2 2 
4ac — b^ 


^ | coach RORA 。 


n 


= 2 [x (ax, +b—y,)|=0 


个 误差 的 平方 和 ，a 和 b 是 斜率 和 
ix 


穿 能 找到 一 个 误差 


最 小 的 点 ， 稍 微 偏 一 偏 这 个 误差 束 很 大 ， 而 且 越 偏 越 大 ， 那 么 这 个 大 
的 极 值 点 是 不 存在 的 ， 小 的 极 值 点 是 存在 的 ， 也 束 是 要 求解 的 点 。 


图 8-10 z-x?-«y? 的 图 像 ( 见 彩 插 ) 


mo xS ] 站 All. /A\ A ZE 2 S [x(ar,+5-y,)] 
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eO — us 

a PAR BRE Re, AB MER ER 
的 结果 ， 根 据 上 述 得 到 的 求 导 之 后 得 0 的 两 个 等 式 可 以 把 公式 展开 推导 
出 


n n n 
2 b ES O < 
a > X; + > X, — > VÑ 
i=l i=l i=l 


62 
a 


其 实 是 aa 展开， 把 a 和 b 作 为 系数 提出 去 之 后 的 结果 。 


同 理 
ay x, £bY1 = Sy, 
i=l id — dd 
这 是 名 展开 ， 把 a 和 b 作 为 系数 提出 去 之 后 的 结 
这 样 得 到 一 个 方程 组 : 
aY xi +bÝ x, = yyx Gal J 
i-i i=l i=l 
ay x, + Nb= Y (2) 
i-i i-i 


把 (2) 式 做 如 下 处 理 : 


n 


Ss 


("0 


得 到 下 面 的 等 式 : 


i n n Ad n 
i= 2 一 
a »» SA - 7S + 


: VX; 
= i=l 
a= n n 
ONIN s 
i=l i=l _ x? 
i 
n = 
n n 
ED 
b = j=1 i=l 
7 


其 中 ，a 就 是 斜率 ，b 是 截 距 。 


上 式 中 ， 把 所 有 的 观测 值 x 和 y 都 代入 ， 束 可 以 得 出 a;， 再 把 观测 值 
和 已 经 求 出 的 a 代入 下 式 ， 束 可 以 相应 得 出 b。 


在 Python 中 ， 有 一 些 框架 可 以 直接 使 用 最 小 二 乘法 进行 线性 拟 合 。 
例如 : 


import numpy as np 


import matplotlib.pyplot as plt 
# 原 始 数据 


0.389, 


0.580, 


0.783, 


0.980, 


1.177, 


1.380, 


1.575, 


for i in range ( 


n 
t1 += y[i] #y 
y 
t2 += x[i] Hy 
x 


t3 += x[i]*ty[i] # 


xy 
t4 += x[i]**2 


ti*t2/n - t3 


t2*t2/n - t4) 


ti - a*t2) 


/n 
x - np.array ( 


y = np.array ( 


#y 


# 画 图 


plt.plot 


label-'Original data' 


markersize-10) 


plt.plot ( 
x 

a*x + b. 
tpt 


label='Fitted line' 


plt.show 0 
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过 拟 合 简称 * 过 拟 ”， 是 在 拟 合 过 程 中 出 现 的 一 种 < 做 过 头 * 的 情 
ihi o 


E LAY BOL AWE? 我 们 通过 对 数据 样本 的 观察 和 抽象 ， 最 后 归纳 
得 到 一 个 完整 的 数据 映射 模型 。 但 是 在 归纳 的 过 程 中 ， 可 能 为 了 迎合 
所 有 样本 加 量 点 甚至 是 噪声 点 而 使 得 模型 描述 过 于 复杂 。 


TEMENE EAA FILA ° 


(1) 描述 复杂 。 所 有 的 过 度 拟 合 的 模型 都 有 一 个 共同 点 ， 那 就 是 


模型 的 描述 非常 复杂 一 一 参数 紧 多 ， 计 算 逻 辑 多 。 


(2) 失去 泛 化 能 力 。 所 谓 泛 化 能 力 就 是 通过 学 习 (或 机 器 学 习 ) 
得 到 的 模型 对 未 知 数 据 的 预测 能 力 ， 即 应 用 于 其 他 非 训 练 样 本 的 向 量 
时 的 分 类 能 力 。 对 于 竺 分 类 样本 辐 量 分 类 正确 度 高 ， 表 示 沁 化 能 力 比 
较 好 ;反之 ， 如 采 对 于 行 分 类 样本 回 量 分 类 正确 度 低 ， 则 表示 沁 化 能 
力 较 差 。 


我 们 通 第 希望 模型 的 泛 化 能 力 是 比较 好 的 ， 因 为 没有 泛 化 能 力 的 
模型 对 于 生产 指导 基本 没有 什么 意义 。 


造成 过 拟 合 的 原因 比较 多 ， 最 常见 的 古 以 下 两 种 。 


(1) 训练 样本 太 少 。 对 于 训练 样本 过 少 的 情况 ， 通 常 都 会 归纳 出 
一 个 非常 不 准确 的 模型 。 例 如 ， 要 通过 样本 统计 的 方式 来 进行 疾病 成 
因 总 结 ， 只 有 一 个 病例 时 ， 这 一 个 病例 目 身 的 个 案 特点 很 可 能 会 被 当 
成 通用 性 的 特点 ， 这 样 总 结 出 来 的 模型 显然 没有 沁 化 能 力 。 而 样本 多 
时 束 可 以 通过 统计 分 析 保 留 那 些 共性 较 多 的 特点 ， 而 共性 较 少 的 特点 
束 是 我 们 所 说 的 噪声 一 一 束 不 会 被 当做 分 类 参数 。 


(2) 力求 “完美 *。 对 于 所 有 的 训练 样本 向 量 点 都 希望 用 拟 合 的 模 
型 窗 盖 ,但 是 实际 上 的 训练 样本 却 有 很 多 是 市 有 了 品 声 的 。 这 里 说 的 噪 
声 不 是 指 刺耳 的 破坏 心情 的 声 啊 ， 而 古 在 收集 到 的 训练 数据 中 由 于 各 
种 原因 导致 的 与 预期 分 类 不 一 致 的 样本 癌 量 。 


QW Ev ae, “DET ERAS, At RTE AS 
同 ， 导 致 某 些 点 打出 来 比 理想 时 间 要 晚 ， 或 比 理想 时 间 要 早 ， 当 偏差 
比 我 们 预期 大 很 多 时 束 可 以 认为 该 点 是 噪声 点 了 。 


再 如 ， 如 有 果 想 测量 两 地 之 间 的 平均 行车 时 间 ， 选 100 辆 汽车 加 小 计 
时 设备 进行 测试 ， 所 有 和 车辆 从 A 地 出 发 前 往 B 地 。 其 中 97 辆 车 计时 设备 
读数 都 是 20~22 分 钟 ， 有 1 辆 车 由 于 超速 行驶 计时 设备 读数 为 15 分 钟 ， 
有 1 辆 车 由 于 车 辆 故障 中 途 抛 销 计 时 设备 读数 300 分 钟 ， 有 1 辆 车 由 于 起 
记 开 局 计时 髓 计时 设备 读数 0 分 钟 。 在 这 个 例子 中 ， 基 本 可 以 判断 A 地 
到 B 地 行车 时 间 为 21 分 钟 左 右 ， 而 后 面 的 3 个 数据 : 15 分 钟 、300 分 钟 
和 0 分 钟 就 是 典型 的 噪声 数据 了 ， 完 全 可 以 在 建 模 的 过 程 中 含 弃 。 


WRA FUB IDE ARIE E I AERE TT SC IE f 
XE mE, ABR ESF A A) TARY, YASH RAR AY oP ERY ff 
差 。 


在 上 述 残 差分 析 中 ， 壬 试 着 将 误差 e 这 个 部 分 做 成 一 个 以 0 为 中 心 
的 正 态 分 布 。 如 有 果 硕 户 这 个 正 态 分布 中 o 小 一 些 ， 甚 至 为 0° 在 这 个 过 
程 中 会 出 现 什么 现象 ? 


首先 ， 在 分 析 的 过 程 中 已 经 党 试 着 用 最 小 二 乘法 确定 系数 ， 这 种 
情况 已 经 比 胡 乱 确定 任何 一 个 系数 要 合理 得 多 ， 因 为 大 部 分 情况 下 误 
ZEB? 

误差 为 0 的 这 种 极限 是 什么 呢 ? AS eR EEL, DÀ ETT 
VFISESR IS D: 

9$,-0.078, n=! 


v,70.100, n=2 
v,70.118, n=3 


v,-0.290, n-12 


JURE URL] PP RES E B J LP C8 HERE Vaal, Ue, 
v=gt 并 不 是 一 个 离散 函数 ，t 十 一 个 在 非 负 实数 上 连续 的 目 变 量 ， 难 道 


有 任何 办 法 罗列 出 所 有 的 值 吗 ? 当然 不 可 能 ， 甚 至 连 实验 得 到 的 数据 
AA HB eA PREY ° 


在 多 元 线性 回归 的 过 程 中 也 会 有 类 似 的 情况 ， 在 为 了 使 得 误差 尽 
可 能 小 的 过 程 中 ， 会 同时 使 得 函数 的 描述 变 得 过 于 复 洒 ， 以 至 于 大 大 
提高 使 用 成 本 ， 那 么 这 种 减 小 误差 的 行为 其 实 是 得 不 偿 失 的 。 


所 有 这 种 使 得 函数 的 描述 变 得 过 于 复杂 ， 或 者 参数 过 于 繁多 ， 或 
者 由 于 训练 样本 的 问题 导致 画 数 失去 泛 化 特性 的 拟 合 过 程 都 叫做 过 把 
拟 合 (Overfitting) 。 


85 KWE 
与 过 度 拟 合 相 反 ， 还 有 -一 种 现象 叫做 从 拟 合 ， 简 称 欠 拟 。 


欠 拟 顾名思义 ， 束 古 由 于 操作 不 当 一 一 也 可 以 说 建 模 不 当 产 生 的 
误 兰 e 分 布 太 散 或 者 太 大 的 情况 。 这 种 情况 下 ， 通 币 体 现 出 来 的 都 是 在 
线性 回归 中 的 因素 考虑 不 足 的 情况 ， 第 见 的 原因 有 以 下 两 种 。 


(1) 参数 过 少 。 对 于 训练 样本 向 量 的 维度 提取 太 少 会 导致 模型 描 
述 的 不 准确 。 


例如 ， 要 根据 银行 储户 的 信息 来 判断 其 信誉 好 或 不 好 ， 通 利 需 要 
综合 考虑 用 户 的 年 龄 、 流 水 总 和 、 账 户 余额 、 借 贷 频 次 、 借 贷 额 度 、 
归还 准时 程度 等 信息 特征 。 这 些 因素 考虑 得 越 充 分 ， 通 第 对 于 用 户 的 
信誉 好 或 不 好 ， 给 予 的 信用 额度 多 少 为 宜 束 会 有 比较 可 靠 的 预测 程 
度 。 而 如 末 参 数 太 少 ， 如 只 有 账户 余额 一 项 ， 那 么 束 不 得 不 用 账户 余 
额 一 个 参数 和 信誉 好 坏 去 建立 一 个 模型 映射 和 关系。 这 个 模型 是 很 不 科 
学 的 ， 通 过 一 个 余额 的 数字 束 能 断言 一 个 人 信誉 几何 太 过 武断 。 


(2) 拟 合 不 当 。 拟 合 不 当 的 原因 比较 复杂 ， 通 常 是 拟 合 方法 不 正 
确 造成 的 。 


例如 ， 某 个 训练 样本 向 量 x 与 结果 值 y 之 间 的 关系 如 下 : 


(1, 1) 

(L41, 2) 
Ugo) 
(2.1, 4) 


形成 这 4 组 癌 量 以 后 ， 用 y=x? 在 第 一 象限 的 曲线 去 拟 合 误 差 更 
小 。 而 如 果 用 图 8-11 所 示 的 直线 y=3.732x-2.932 做 拟 合 ， 显 然 都 没有 
y=x? 的 误差 小 。 


图 8-11 用 直线 y=3.732x-2.932 拟 合 


Suite Gey, WRES ERE Me BS SEKRE ° 
AREKAK NE TME BRU ZR VUA TR TRIER, KK 
有 做 拟 合 差不多 。 


8.6 ”曲线 拟 合 转 化 为 线性 拟 合 


非 线 性 回归 的 情况 太 过 复杂 ， 在 生产 实践 中 也 尽量 避免 使 用 这 种 
模型 。 好 在 分 类 算法 有 很 多 ， 而 且 更 多 的 是 为 了 处 理 半 结构 化 数据 ， 
所 以 非 线 性 回归 相关 的 内 容 只 做 一 般 性 了 解 即 可 。 


非 线性 回归 一 般 可 以 分 为 一 元 非 线性 回归 和 多 元 非 线性 回归 。 


一 元 非 线 性 回归 是 指 两 个 变量 一 一 一 个 目 变 量 ， 一 个 因 变 量 之 间 
呈现 非 线性 关系 ， 如 双 曲 线 、 二 次 曲线 、 三 (EO 次 曲线 、 需 曲线 、 
和 数 曲 线 、 对 数 曲 线 等 。 在 解决 这 些 问题 时 通 第 建立 的 是 非 线 性 回归 
方程 或 者 方程 组 。 


多 元 非 线 性 回归 分 析 是 指 两 个 或 两 个 以 上 目 变 量 和 因 变 量 之 间 三 
现 的 非 线性 关系 建立 非 线 性 回归 模型 。 对 多 元 非 线性 回归 模型 求解 的 
传统 做 法 ， 仍 然 是 想 办 法 把 它 转 化 成 标准 的 线性 形式 的 多 元 回归 模型 
来 处 理 。 有 些 非 线性 回归 模型 ， 经 过 适当 的 数学 变换 ， 便 能 得 到 它 的 
线性 化 的 表达 形式 ， 但 对 必 外 一 些 非 线性 回归 模型 ， 仅 仅 做 变量 变换 
根本 无 济 于 事 。 属 于 前 一 种 情况 的 非 线性 回归 模型 一 般 称 为 内 强 的 线 
性 回归 ， 而 后 者 则 称 之 为 内 至 的 非 线性 回归 。 


线性 拟 合 里 最 简单 的 就 是 上 述 y=ax+b 这 种 形式 。 除 此 之 外 ， 可 以 
将 等 式 两 边 转 化 为 几 个 一 次 式 加 和 的 情况 ， 不 论 是 一 元 的 还 是 多 元 


的 ， 都 仍然 站 线性 回归 研究 的 范畴 。 再 如 : 
20 世 纪 60 年 代 的 世界 人 口 状况 如 表 8-2 所 示 。 


表 8-2 20 世纪 60 年 代 世 界 人 口 状况 


年 份 世界 人 口 ( 亿 ) 年 份 ERAO Z) 
1960 29:72 1965 32.85 
1961 30.61 1966 33.56 
1962 31.51 1967 34.20 
1963 32.13 1968 34.83 
1964 32.34 


根据 马尔 萨 斯 人 口 模型 


其 中 s 是 人 口 ， 十 年 份 ，e 是 自然 常数 〈 约 取 2.71828) ， 试 着 推导 
一 下 到 2030 年 时 世界 人 口 的 数量 。 这 个 问题 是 一 个 比较 典型 的 多 元 线 
性 回归 的 问题 模型 。 求 解 如 下 。 


对 等 式 两 边 同 时 取 In 《以 e 为 底 的 log) ， 得 到 
In s=$t+ln a 
在 这 里 实际 上 用 的 还 是 线性 回归 模型 ， 相 当 于 


y=ax+b 


这 种 使 用 方式 在 Python 中 同样 可 以 套用 线性 回归 的 方法 ， 代 码 如 
B: 


import numpy as np 

from scipy.optimize import curve fit 
import matplotlib.pyplot as plt 

# 原 始 数据 


T = [1960, 


1961, 


1962. 


1963, 


1964, 


1965, 


1966. 


1967. 


1968] 
S - [29.72. 


30.61 


31.51 


32.13, 


32.34, 


32.85, 


33.56, 


34.290, 


34.83] 
xdata = np.array ( 


ydata = np.log 


np.array 


def func ( 


return a + b*x 
# 使 用 非 线性 最 小 二 乘法 拟 合 函 数 


popt. 


pcov = curve fit ( 


func 


xdata. 


ydata) 


#E R 


plt.plot 


xdata 


ydata 


label-"Original Noised Data") 


plt.plot ( 


xdata 


func ( 


xdata 


*popt), 


label="Fitted Curve") 


plt.show () 


如 图 8-12 所 示 ， 横 轴 写 着 +1.96e3， 这 是 用 科学 记 数 法 来 表示 的 ， 
意思 为 1.96x103， 也 就 是 1960， 横 轴 上 的 点 就 是 1960~1968。 纵 轴 是 In 
s 的 值 ， 斜 率 是 B 的 值 ， 截 距 是 Ina 的 值 ， 计 算 完 成 后 通过 代 换 可 以 计算 
出 B 和 a 的 值 。 


e e Original Noised Data 


—— Fitted Curve 


3.45 


3.40 


图 8-12 ”线性 回归 函数 图 形 


在 这 个 例子 中 ， 最 后 可 以 得 到 B=0.01859， 
oa=4.48401395866716x10-15 


代入 公式 s=areBt ， 求 得 s 的 值 ， 单 位 是 亿 。 


在 预测 人 口 数量 时 ， 直 接 把 年 份 代入 即 可 ， 如 2000 年 时 ， 代 入 公 
式 得 到 s 约 为 62.9 亿 © 


关于 马尔 萨 斯 人 口 模型 公式 s=a+ebt 有 一 个 需要 注意 的 地 方 ， 即 预 
测 近 期 的 人 口 数据 基本 准确 ， 如 2000 年 的 人 口 ， 使 用 这 个 模型 预测 出 
来 是 62.9 亿 ， 真 实 的 统计 数据 为 61.02 亿 ， 误 差 不 到 3.1%， 还 是 一 个 相 


对 比较 精确 的 模型 。 但 是 代入 更 大 的 数字 就 会 出 现 问 题 ， 如 代入 4000 
这 个 数字 ， 算 出 来 大 约 88263 万 亿 ， 这 个 数字 是 不 可 信 的 ， 因 为 公元 
4000 年 的 时 候 世 界 人 口 数量 增 大 至 现在 的 1200 多 万 倍 ， 按 照 地 球 陆地 
面积 1.49 亿 平方 千 米 计算 ， 平均 每 平方 米 上 有 592 个 人 而 有 旦 不 管 是 高 山 
峡谷 沼泽 森林 统统 都 算 在 内 。 这 种 现象 可 不 是 这 一 个 例子 里 所 特有 

的 ， 所 有 的 由 统计 而 来 的 回归 方程 在 自 变 量 很 大 或 者 很 小 时 都 容易 发 
生 失 真 。 所 以 回归 这 种 模型 只 能 用 来 预测 和 上 自 变量 统计 的 区 间 比 较 近 
的 目 变 量 对 应 的 函数 值 。 


8.7 M 


从 机 天 学 习 的 角度 来 说 ， 回 归 算法 应 该 算 作 “ 分 类 ”算法 。 它 更 像 
征 人 们 移 给 了 计算 机 一 些 样本 ， 然 后 让 计算 机 根据 样本 计算 出 一 种 公 
式 或 者 模型 ， 而 在 公式 或 者 模型 成 立 后 ， 人 们 再 给 这 个 模型 新 的 样 
本 ， 它 就 可 以 把 这 个 样本 猜测 或 者 说 推 师 为 某 一 分 类 。 


不 同 的 是， 在 回归 中 人 研究 的 都 是 具体 的 数值 (实数) ， 而 分 类 算 
法 则 不 一 定 ， 它 的 样本 除了 可 以 是 数值 外 ， 可 能 很 多 是 一 些 枚 举 值 或 
者 文本 。 读 者 只 需要 从 这 个 角度 来 做 感性 上 的 区 分 即 可 。 


在 使 用 回归 的 过 程 中 ， 要 注意 尽量 避免 出 现 过 拟 和 从 拟 ， 让 函数 
描述 在 简洁 和 精确 之 间 找 一 个 平衡 ， 这 才 是 众多 从 统计 而 来 的 回归 过 
程 最 后 落地 所 要 考虑 的 事情 。 过 拟 和 从 拟 不 仅 出 现在 回归 方法 中 ， 在 
其 他 基于 样本 癌 量 的 统计 归纳 的 模型 训练 中 都 有 这 样 的 问题 ， 请 读者 
一 定 要 注意 。 


第 9 章 ” 聚 类 


R (Clustering) 指 的 是 一 种 学 习 方 式 (操作 方式 ， 即 把 物理 
或 抽象 对 象 的 集合 分 组 为 由 彼此 类 似 的 对 象 组 成 的 多 个 类 的 分 析 过 
程 。 


案 类 这 种 行为 我 们 不 要 觉得 很 神秘 ， 也 不 要 觉得 这 个 东西 是 机 器 
学 习 所 独 有 的 ， 恰 恰 相 反 ， 聚 类 的 行为 本 源 还 是 人 目 身 。 我 们 学 习 的 
所 有 数据 挖掘 或 者 机 絮 学 习 的 算法 或 者 思想 的 来 产 都 是 人 类 目 己 的 思 
考 方式 ， 只 不 过 我 们 把 它 教 给 机 器 让 它们 代劳 ， 让 它们 成 为 我 们 胶体 
和 能 力 的 延伸 而 不 是 让 它们 车 我 们 创造 和 思考 。 


聚 类 是 一 种 什么 现象 呢 ? 我 们 在 认识 客观 世界 的 过 程 中 其 实 一 直 
遇 到 容量 性 的 问题 ， 遇 到 的 每 一 棵 树 、 每 一 未 伦 、 每 一 只 昆虫 、 每 一 
头 动物 、 每 一 个 人 、 每 一 栋 建 筑 .……. 每 个 个 体 之 间 其 实 都 不 同 ， 有 的 
还 兰 距 相当 大 。 那 么 人 在 认 知 和 记忆 这 些 客观 事物 的 过 程 中 束 会 异 肖 
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因此 人 类 才 会 在 “ 自 底 向 上 ”的 认识 世界 的 过 程 中 * 偷 籁 ”性 地 选择 
了 归纳 归 类 的 方式 ， 注 意 * 偷 懒 " 这 种 方式 是 人 类 与 生 俱 来 的 。 


我 们 在 小 时 候补 父母 用 看 图 说 话 的 方式 来 教 嘱 呀 学 语 的 时 候 丈 有 
过 类 似 的 体会 了 ， 图 片上 画 了 一 只 猴子 ， 于 古 我 们 就 认识 了 ， 这 是 一 


只 猴子 ， 图 片上 画 了 一 辆 汽车 ， 于 是 我 们 整 了 解 了 ， 这 十 一 辆 汽 

车 .…… 我 们 上 街 或 者 去 动物 园 的 时 候 再 看 ， 猴 于 也 不 是 画 上 的 猴子 ， 

而 且 众 多 猴子 也 长 得 各 式 各 样 ， 每 个 都 不 同 ， 我 们 会 把 他 们 当成 一 个 
个 新 事物 去 认识 吗 ? 我 们 看 汽车 也 同样 ， 大 小 、 颜 色 、 样 式 ， 甚 至 是 
喇叭 的 声音 也 是 形形色色 、 五 花 八 门 ， 它 们 在 我 们 眼 里 是 一 个 个 新 的 
事物 吗 ? 不 ， 它 们 都 还 是 汽车 。 这 些 事物 之 间 确 实 有 所 不 同 ， 但 是 它 
们 对 我 们 的 认 知 囊 来 了 很 大 的 困扰 吗 ? 并 没有 。 我 们 无 论 如 何 征 不 会 
把 猴子 和 汽车 当成 一 类 事物 去 认 知 的 ， 猴 子 彼此 之 间 是 不 同 ， 但 是 体 
格 、 毛 发 、 行 为 举止 ， 种 种 形态 让 我 们 认为 这 些 不 同 种 类 的 猴子 都 还 
征 属 于 猴子 这 一 个 大 类 的 动物 ， 更 别 说 是 和 汽车 混为一谈 ， 融 是 跟 

狗 、 马 、 能 这些 有 椎 动物 我 们 也 能 轻易 地 分 开 。 


人 类 天 生 具 备 这 种 归纳 和 总 结 的 能 力 ， 能 够 把 相似 的 事物 放 到 一 
起 来 作为 一 类 事物 进行 认识 ， 它 们 之 间 可 以 有 彼此 的 不 同 ， 但 是 有 一 
个 “限度 ”， 只 要 在 这 个 限度 内 ， 特 征 稍 有 区 别 无 天 大 碍 ， 它 们 仍然 十 
这 一 类 事物 (图 9-1) 。 


图 9-1 人 类 的 归纳 和 总 结 能 力 


在 这 一 类 事物 的 内 部 ， 同 样 有 这 种 现象 ， 一 部 分 个 体 之 间 比 较 相 
近 ， 而 男 一 部 分 个 体 之 间 比 较 相 近 ， 这 两 部 分 个 体 彼此 之 间 能 够 被 明 
显 认 知 到 差别 ， 那 么 这 个 部 分 的 事物 又 会 在 大 类 别 的 内 部 重新 划分 成 
两 个 不 同 的 部 分 进行 认 知 。 如 汽车 从 样子 上 可 以 分 成 小 轿车 、 卡 车 、 
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在 没有 人 特意 教授 不 同 小 种 群 的 称谓 与 特性 之 前 ， 人 类 目 然 具备 
这 种 主观 的 认 知 能 力 ， 以 特征 形态 的 相同 或 近似 将 它们 划 在 一 个 概念 
下 ， 以 特征 形态 的 不 同 划 在 不 同 的 概念 仆 ， 这 本 身 殉 是 聚 类 的 思维 方 
ae 


9.1 K-Means J£ 


ERR rHK-Means ike 1h APRS, these TIA] ES 
RRR o GEA GRAM D ° 


(1) 从 n 个 向 量 对 象 任意 选择 k 个 向 量 作 为 初始 聚 类 中 心 。 


(2) 根据 在 步骤 (1) 中 设置 的 k 个 向 量 (中 心 对 象 向 量 ) ， 计 算 
每 个 对 象 与 这 k 个 中 心 对 象 各 目的 距离 。 


(3) 对 于 步骤 (2) 中 的 计算 ， 任 何 一 个 向 量 与 这 k 个 向 量 都 有 一 
个 距离 ， 有 的 远 有 的 近 ， 把 这 个 向 量 和 距离 它 最 近 的 中 心 向 量 对 象 归 
TEPER e 


(4) 重新 计算 每 个 类 艇 的 中 心 对 象 向 量 位 置 。 


(5) 重复 (3) (4) 两 个 步骤 ， 直 到 类 簇 聚 类 方案 中 的 向 量 归 类 
变化 极 少 为止 。 例 如 ， 一 次 适 代 后 ， 只 有 少 于 1% 的 同 量 还 在 发 生 类 簇 
之 间 的 归 类 漂移 ， 那 么 号 可 以 认为 分 类 完成 。 


这 里 要 注意 的 是: 


中 需要 事先 指定 类 复 的 数量 。 


四 需要 事先 给 定 初始 的 类 中 心 。 


"i 


例如 ， 先 准备 一 个 中 国 城市 经 纬度 表 ， 
gie (省: TH, Ika, TRES) 


北京 市 ， 北 京 市 ， 


39.55, 


116.24 mf, 


26.05, 


119 . 18 福建 省 ， 


25.58, 


119.319, fü 


27.06, 


119.39 m8, 


25.42, 


119.2314, EM, 


福州 ， 


KR, 


mi 
对 


一 共 604 个 向 量 ， 这 4 个 维 


27.03, 


118 . 20 福建 省 ， 建 阳 ， 


27.21, 


118 . 07 福建 省 ， 晋 江 ， 


24.49, 


118.351]9g4, Xi, 


24.26. 


117.4889, LF, 


25.06, 


117.0138, HE, 


24.57, 


118 ,23 福建 省 ， 南 了 


R 


26.38. 


118 . 工 90 福 建 省 ， 宁 德 ， 


26.39, 


lis 


119.31]g 4, d 


24.26, 


119.0154, RIN, 


24.56. 


118 . 36 福建 省 ， 


[1l 


9j, 


26.13. 


117 . 36 福建 省 ， 邵 武 ， 


27.20, 


117.2915, Aili, 


24.44. 


118.3818], KEL, 


27.46, 


118.0215, [ET], 


24.27, 


118 . 06 福建 省 ， 永 安 ， 


25.58, 


117.239, uy. 


25.17. 


浙江 省 ,平湖 ， 


30.42. 


121.018. WM, 


28.58, 


118 .52 浙 江 省 ， 瑞 安 ， 


27.48. 


120. 38 浙江 省 ， 上 上 处， 


30.01. 


120 .52 浙 江 省 ， 绍 兴 ， 


30.00, 


120.344, AM, 


28.41. 
121 ,27 浙江 省 ， 桐 乡 
30.38. 


120 . 32 浙 江 省 ， 温 岭 ， 


28.22, 


2 工 . 2 浙江 省 ， 温 州 ， 


28.01. 


120.394. iff 


sil 
=} 
LI 


30.09. 


120 . 工 6 浙江 省 ， 义 乌 ， 


29.18. 


120 .04 浙江 省 ， 乐 清 ， 


28.08, 


120 .58 浙 江 省 ， 余 杭 ， 


30.26, 


120 . 18 浙江 省 ， 余 姚 ， 


30.02, 


121 .10 浙 江 省 ， 永 康 ， 


29.54, 


120. 01 浙江 省 ， 舟 山 ， 


30.01. 


122.065, iE, 


29.43, 


120.142 


H. HATH, 


EKT 


29.35, 


106.332 


30.02, 


合川 市 


EKT 


106.158 


9E, YLT, 


29.18. 


工 06 , 工 6 重庆 市 ， 南 川 市 ， 


mu 


二 | 


29.10, 


107.058, ANTE, 


29.23, 


105.53 


把 它 保存 成 一 个 文本 文件 “city.txt” 以 备 后 面 实验 使 用 。 
使 用 K-Means 算 法 的 代码 如 下 : 


#coding=utf-8 

import numpy as np 

import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
# 从 磁盘 读 取 城市 经 纬度 数据 


[] 


open ( 


h x 


'city.txt') 


for v in f. 


X.append ( 


[float | 


v.split ( 


[2], . 


float ( 


v.split ( 


[3]; 


# 转 换 成 


numpy array 
X = np.array ( 


# 类 簇 的 数量 


n_clusters = 5 
# 现 在 把 数据 和 对 应 的 分 类 数 放 入 聚 


cls = KMeans ( 


n_clusters) 


.fit ( 


#X 中 每 项 所 属 分 类 的 一 个 列表 


类 画 数 中 


are 


cls.labels_ 
## 画 图 


markers = ['^' 


vet] 
for i in range ( 


n clusters). 


members - cls.labels -- i 
plt.scatter | 


X[members. 


9]. 


X[members, 


s=60. 


markerzmarkers[i]. 


alpha=0.5) 


plt.title ( 


plt.show 0 


绘 出 的 图 形 如 图 9-2 所 示 。 


图 9-2 中 的 横 坐 标 表示 北纬 维度 ， 纵 坐标 表示 东经 维度 。 把 中 国 的 
城市 划分 为 5 个 大 城市 区 域 ， 在 图 上 对 应 划分 出 东北 、 华 中 、 华 南 、 西 
部 、 西 北 5 个 区 域 。 形 状 比 较 奇 怪 ， 像 是 沿 着 左下 到 右上 的 对 角 线 “ 照 
了 个 镜子 ”， 西 北 跑 到 了 东南 ， 东 南 跑 到 了 西北 。 


140 


130 


120 


110 } 


100 


90 


80 | 


70 
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9.2 有趣 柑 式 


有 趣 模式 顾名思义 ， 是 指 容易 让 我 们 产生 兴趣 的 模式 。 


在 数据 挖掘 和 机 器 学 习 中 ， 一 次 计算 会 产生 大 量 的 “模式 ”。 上 所 谓 
模式 可 以 理解 成 一 种 数据 规律 。 例 如 ， 上 述 K-Means 将 研究 的 数据 对 
象 分 成 看 干 个 组 ， 这 些 划 分 方法 殉 是 模式 。 


在 后 面 的 章节 中 也 会 碰 到 其 他 的 算法 带 来 的 模式 。 在 一 次 算法 中 
可 能 会 产生 很 多 模式 ， 然 而 “有 趣 模式 ”可 能 并 不 多 。 


如 有 果 一 个 模式 具备 以 下 特点 ， 那 么 它 是 有 趣 的 (Interesting) 。 
(1) 易于 被 人 理解 。 
(2) 在 茶 种 确信 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 。 
(3) 是 潜在 有 用 的 。 
(4) 是 新 颖 的 。 


如 宁 一 个 模式 证 实 了 某 种 假设 ， 则 它 也 是 有 趣 的 。 有 趣 的 模式 代 
表 知 识 。 


怎么 理解 呢 ， 我 们 来 看 几 个 例子 体会 一 下 。 


第 一 , “易于 被 人 理解 ”。 易 于 理解 的 意思 就 是 说 人 们 看 到 这 样 一 
种 数据 关系 、 一 种 结果 ， 比 较 容 易 从 非 数 据 层 面 进行 理解 ， 或 者 比较 
容易 在 实际 的 生产 生活 中 解释 其 原理 或 关系。 


第 二 ,“ 在 某 种 确信 和 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 "。 D 
征 说 ， 这 样 一 种 总 结 出 来 的 数据 规律 和 特性 对 于 新 的 样本 是 可 以 套用 
的 ， 即 有 趣 模 式 人 研究 的 绝 非 一 个 空前 或 绝 后 的 孤本 ， 因 为 这 种 东西 不 
具备 任何 迁移 性 和 继承 性 。 


第 三 ,，“ 是 光 在 有 用 的 ”是 指 这 些 有 趣 模 式 一 定 要 有 实际 意义 或 者 
价值 ， 而 那些 虽然 能 被 理解 ， 而 且 可 以 用 来 检验 新 的 数据 样本 的 模 
式 ， 如 果 没 有 实际 意义 或 者 价值 ， 则 同样 不 是 有 趣 的 。 


第 四 ,，“ 是 新 疾 的 ”。 例 如， 不 会 有 人 对 几 十 年 前 束 已 经 非常 熟识 
并 为 每 个 人 所 知晓 的 知识 有 兴趣 。 因 为 已 知 的 东西 已 经 * 浮 出 水 面 ”， 
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9.3 IZA, 


在 聚 类 的 过 程 中 ， 会 币 滑 碰 到 一 些 离 主 群 或 者 离 每 个 群 都 非常 远 
的 点 ， 这 种 点 束 叫 作 扳 立 点 ， 也 叫 离 群 氮 。 孤立 点 在 很 多 数据 研究 材 
料 中 是 专门 作为 一 类 研究 方法 来 研究 的 。 


聚 类 算法 通常 不 能 直接 解释 孤立 点 产生 的 原因 ， 但 是 孤立 点 通常 
也 是 有 具体 意义 的 。 


第 一 ， 孤 立 点 可 能 是 由 于 数据 清洗 不 当 而 产生 的 ， 这 属于 操作 性 
的 失误 问题 ， 不 是 要 研究 的 内 容 。 


第 二 ， 孤 立 扩 通常 由 一 些 和 群 里 的 个 体 特点 差异 极 大 的 样本 组 
成 ， 它 们 的 行为 在 真实 世界 里 和 在 我 们 的 生产 生活 中 也 极 有 可 能 和 群 
里 的 样本 有 着 巨大 的 老 异 。 


在 生产 生活 中 ， 扳 立 点 的 应 用 和 人 研 守 也 很 多 。 例 如 ， 在 银行 的 信 
用 卡 诈 驻 识 别 中 ， 研 究 孤 立 点 束 是 很 好 的 办 法 ， 通 过 对 大 量 的 信用 卡 
用 户 信 息 和 消费 行为 进行 向 量化 建 模 和 案 类 ， 发 现在 率 类 中 远离 大 量 
样本 的 点 显得 非常 可 疑 一 一 因为 他 们 和 一 般 性 的 信用 卡 用 户 特性 不 
同 ， 他 们 的 消费 行为 和 一 般 性 的 信用 卡 消 费 行 为 也 相去 其 远 。 还 有 医 
学 领域 和 刑侦 领域 的 大 数据 研究 中 都 大 量 应 用 了 孤立 点 的 研究 技术 。 
在 某 些 大 型 网 络 商城 里 ， 为 了 防止 一 些 商 家 恶意 刷 单 ， 也 采用 了 与 刑 
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异 巨大 的 ， 从 而 做 出 规则 上 的 预防 。 


层次 聚 类 这 个 说 法 很 形象 ， 与 本 章 最 开始 介绍 的 人 类 “ 目 底 辐 
上 ”认识 事物 的 过 程 是 一 样 的 。 


前 面 介 绍 的 K-Means 算 法 是 直接 把 样本 分 成 看 干 个 群 ， 而 现在 讨论 
的 层次 案 类 束 是 通过 到 类 算法 把 样本 根据 距离 分 成 者 干 大 群 ， 大 群 之 
间 相 异 ， 大 群 内 部 相似 ， 而 大 群 内 部 又 当成 一 个 全 局 的 样本 空间 ， 再 
继续 划分 成 者 干 小 群 ， 小 群 之 间 相 异 ， 小 群 内 部 相似 。 这 束 是 层次 聚 
SB RM, ^ ds TÉ BUE BARRIER o 


图 9-3 所 示 为 部 分 动物 界 物种 分 类 层级 的 示意 图 ， 从 大 到 小 分 别 是 
i、 纲 、 目 、 科 、 属 、 种 6 个 层级 ， 这 里 只 列 出 了 前 3 个 层级 。 这 束 像 
公司 内 部 的 部 门 层级 结构 一 样 ， 从 小 到 大 看 也 是 根据 个 体 与 个 体 、 小 
类 与 小 类 之 间 的 相似 程度 汇聚 成 一 个 宫 括 更 多 相似 特征 的 大 群体 ， 而 
局 层 层 如 此 * 


动物 界 
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图 9-3 ”部 分 动物 界 物种 分 类 层次 示 图 


从 思考 角度 来 说 ， 有 两 种 思路 ， 一 种 是 “凝聚 的 层次 聚 类 方法 ”, 
种 是 “分 裂 的 层次 聚 类 方法 ”。 这 两 种 说 法 也 很 形象 ,“ 族 聚 的 层次 聚 
RITE ETE BAAS F EB JRA] ERIE A EDGE EAR CR GE 
B/E, EGRE] — eR BES A) EE CER EE * PREK 
聚 类 方法 "也 好 理解 ， 束 生 允 把 所 有 的 样本 分 成 大 干 个 大 群 ， 再 在 每 个 
群 里 各 目 重 新 进行 聚 类 划分 。 


“分 裂 的 层次 聚 类 方法 ?比较 好 做 。 其 实 可 以 莹 试用 前 面 介绍 的 K- 
Means， 可 以 先 用 K-Means 进 行 一 次 聚 类 ， 分 成 各 干 个 类 复 ， 再 在 每 个 
类 篮 中 使 用 K-Means 进 行 聚 类 ， 这 种 思路 是 很 容易 被 想到 的 。 这 种 方式 
大 家 壬 试 去 用 一 下 整 可 以 了 。 


下 面 重 点 介绍 “凝聚 的 层次 聚 类 方法 ”。 


凝聚 的 层次 聚 类 方法 是 通过 这 样 的 算法 思路 进行 工作 的 : 在 Scikit- 
learn 库 中 ， 提 供 了 一 种 叫 作 AgglomerativeClustering 的 分 类 算法 。 首 
和 完 ， 它 把 整个 待 分 类 样本 看 作 一 标 完 整 的 树 ， 树 根 症 所 有 的 训练 样本 
向 量 ， 而 众多 树叶 就 是 每 一 个 单独 的 样本 。 然 后 ， 设 计 几 个 观察 点 ， 
让 它们 散布 在 整个 训练 样本 中 。 让 这 些 观 察 点 目下 而 上 不 断 地 进行 类 
篮 的 合并 。 这 种 聚 类 合并 也 是 遵循 一 定 的 原则 的 ， 即 基于 连接 度 的 度 
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则 。 


-Ward 策 上 略 :， 让 所 有 类 艇 中 的 方 鞭 最 小 化 。 


.Maximum 策 略 : 也 叫 completed linkage (全 连接 策略 ) ， 力 求 将 类 
入 之 间 的 距离 最 大 值 最 小 化 。 


.Average linkage 策 略 ， 力 求 将 簇 之 间 的 距离 的 平均 值 最 小 化 。 
本 例 用 的 是 Ward 策 略 。 


#coding=ut f -8 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.cluster import AgglomerativeClustering 
# 从 磁盘 读 取 城 市 经 纬度 数据 


'city.txt') 


for v in f. 


X.append ( 


[float 


v.split ( 


[2] ， 


float ( 


v.split ( 


[3]; 


# 转 换 成 


numpy array 
X = np.array ( 


FREE 


n_clusters = 5 
# 现 在 把 数据 和 对 应 的 分 类 数 放 入 聚 类 画 数 中 进行 聚 类 ， 使 用 方差 最 小 化 的 方法 


'ward' 
cls = AgglomerativeClustering | 


linkage-'ward', 


n clusters-n clusters) 


.fit( 


#X 中 每 项 所 属 分 类 的 一 个 列表 


cls.labels_ 
Tj 


markers = ['^' 


'+'] 
for i in range ( 


n_clusters) : 


members = cls.labels_ 
plt.scatter (| 


X[members 


9]. 


X[members 


1]. 


s=60, 


marker=markers[i]. 


c='b', 


alpha=0.5) 


plt.title ( 


plt.show 0 


绘 出 的 图 形 如 图 9-4 所 示 。 


图 9-4” 绘 出 的 图 形 


层次 聚 类 的 思路 其 实 并 没有 什么 很 新 奇 的 地 方 ， 它 的 优势 更 多 的 
征 为 层次 化 的 可 视 化 提供 文 持 ， 在 我 们 认识 比较 陌生 的 数据 层次 时 比 
较 有 帮助 。 那 么 什么 是 比较 熟悉 的 ? 什么 是 比较 陌生 的 ? 比较 熟悉 的 
就 是 人 类 主观 上 已 经 确定 或 者 规定 的 层次 方式 ， 如 员工 等 级 、 交 通 工 
具 分 类 等 ， 这 种 本 来 束 是 由 人 主观 性 规定 的 数据 就 是 人 类 熟悉 的 数 
据 。 不 熟悉 的 数据 如 生物 的 分 类 和 进化 等 ， 是 几 千 万 年 来 客观 留 下 
的 ， 在 人 类 出 现 之 前 早 就 已 经 开始 而 且 到 现在 还 没有 结束 的 ， 只 能 通 
过 典型 的 穷 举 个 体 的 方式 来 逐步 “ 目 底 向 上 ”认识 它们 。 这 个 课题 ， 可 


以 通过 对 生物 解剖 学 的 特征 进行 向 量 建 模 ， 也 可 以 根据 DNA 的 特征 进 
行 向 量 建 模 然后 挖掘 。 此 外 ， 层 次 聚 类 的 思路 也 可 以 用 于 对 人 们 社会 
活动 中 的 一 些 现 象 进行 总 结 ， 如 一 个 做 歌曲 发 布 的 网 站 ， 如 果 希 望 做 
推荐 算法 ， 可 以 考虑 对 一 个 人 爱 听 的 歌曲 进行 层次 化 的 聚 类 。 对 每 首 
爱 听 的 歌曲 进行 向 量 建 模 ， 如 对 一 首 歌 的 各 个 信息 维度 进行 建 模 ， 例 
如 : 


CHB, EA, THA, EE, TERRA, HRR, YA 
KE, WWE, AREER, FES...) 


my 
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类 别 ， 以 及 其 下 的 小 类 别 。 或 者 研究 歌曲 流行 风格 进化 细 化 的 趋势 


A 


密度 聚 类 很 多 时 候 用 在 聚 类 形状 不 规则 的 情形 下 ， 如 图 9-5 所 示 ， 
Fae AL A RAD Bl NES PH AS TT ARSE AY o 


图 9-5 RAFAT ANU) 


从 图 9-5 中 可 以 看 出 ， 很 显然 类 别 是 这 两 个 不 规则 的 形状 。 但 是 如 
果 使 用 K-Means 算 法 ， 无 论 如 何 是 得 不 到 这 个 结果 的 ， 因 为 K-Means 是 


用 欧 氏 距离 半径 来 进行 类 艇 划分 的 ， 对 于 这 种 带 拐弯 的 、 狭 长 的 、 不 
规则 形状 的 聚 类 效果 就 没有 圆 形 类 簇 的 效果 好 。 


值得 注意 的 是 ，K-Means 的 距离 计算 公式 也 是 可 以 选取 的 ， 一 般 用 
欧 氏 距离 比较 人 简单， 或 者 用 曼哈顿 距离 。 常 用 的 距离 度量 方法 包括 欧 
氏 距 离 和 余弦 相似 度 。 两 者 都 是 评定 个 体 间 差异 的 大 小 的 。 欧 氏 距 离 
度量 会 受 指 标 不 同 单位 刻度 的 影响 ， 所 以 一 般 需 要 先进 行 标准 化 或 者 
归 一 化 ， 同 时 距离 越 大 ， 个 体 间 差异 越 大 ;空间 回 量 余弦 夹 角 的 相似 
度 度量 不 会 受 指 标 刻度 的 影响 ， 余 弦 值 落 于 区 间 [-1，1] 上 ， 值 越 大 ， 
差异 越 小 。 有 关 使 用 余弦 相似 度 来 度量 个 体 向 量 距离 的 例子 将 在 后 面 


在 sklearm 里 也 有 专门 用 来 做 基于 密度 分 类 的 算法 库 一 一 
sklearn.cluster. DBSCAN ° 


由 于 密度 聚 类 在 样本 比较 多 时 容易 看 出 效果 ， 所 以 这 里 使 用 一 个 
问 量 比较 多 的 例子 。 辐 量 定义 如 下 : 


(位 次 ， 国 家 ， 面 积 km2， 人 口 ，GDP 亿 美元 ， 人 均 GDP 美 元 ) 


注意 : 向 量 实例 一 共有 12 个 ， 为 了 和 代码 统一 ， 这 里 不 写 两 边 的 
括号 ， 但 是 意 义 征 一 样 的 。 


km2. Ad, 


GDP 亿 美元 ， 人 均 


GDP 美 元 


9670250, 


1392358258, 


99960, 


7179 印 度 ， 


2980000. 


1247923065, 


18707. 


1505XxHB, 


9629091, 


317408015, 


167997, 


5310128, 


8514877, 


201032714, 


22429, 


11311044, 


377873, 


127270000, 


49015, 


38491 澳 大 利 亚 ， 


7692024. 


23540517, 


15053, 


64863JI EK, 


9984670. 


34591000, 


18251, 


51990 俄 罗斯 ， 


171244422, 


143551289, 


21180. 


148195 


[m] 


513115, 


67041000, 


3871.6, 


5674 束 埔 寨 ， 


181035, 


14805358, 


156.5. 


10165 


99600. 


50400000. 


12218. 


243290, 


120538. 


24052231 


355, 


1476 


对 它们 进行 密度 聚 类 的 代码 如 下 : 


Zcoding-utf-8 

import numpy as np 

from sklearn.cluster import DBSCAN 
import matplotlib.pyplot as plt 

# 国 家 面积 和 人 口 


X=[ 
[9670250, 


1392358258] 


ug 


[2980000. 


1247923065] 


HELE 


[9629091. 


317408015]. 


[8514877. 


201032714]. 


[377873. 


127270000]. 


#AA 


[7692024. 


23540517]. 


AAKRI 


[9984670, 


34591000]. 


# 加 拿 大 


[17075400, 


143551289]. 


# 俄 罗斯 


[513115. 


67041000]. 


TEE 


[181035. 


14805358]. 


ARH 


[99600, 


50400000]. 


TH 


H 


[120538. 


24052231]] s 


# 转 换 成 


numpy array 
X = np.array ( 


# 做 归 一 化 


1] / 17075400.0 * 10000 


b = X[: ， 

1: 

] / 1392358258.0 * 10000 
X = np.concatenate ( ( 


axis=1) 


# 现 在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 ， 这 里 没有 出 现 噪点 是 因为 把 


min_samples# 设 置 成 了 


1 
cls = DBSCAN ( 


eps=2000, 


min_samples=1) 


Fit ( 


# 类 簇 的 数量 


n clusters = len ( 


set ( 


cls.labels_) ) 


#X 中 每 项 所 属 分 类 的 一 个 列表 


cls.labels_ 


# 画 图 


markers = ['A' 


'+'] 
for i in range ( 


n_clusters) : 


my_members = cls.labels_ == 
plt.scatter (| 


X[my members 


0]. 


X[my. members 


1]. 


s=60, 


marker=markers[i]. 


c='b', 


alpha=0.5) 


plt.title ( 


'dbscan') 


plt.show 0 


绘 出 的 图 形 如 图 9-6 所 示 。 


dbscan 
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在 这 个 例子 里 ， 国 家 被 分 为 了 5 个 不 同 的 类 别 ， 在 图 上 分 别 由 5 种 
不 同 的 图 形 元 素来 标识 ， 我 们 也 可 以 看 出 大 体 上 分 ， 束 是 人 口 和 面积 
都 多 ， 人 口 和 面积 都 少 ， 人 口 多 面积 少 ， 人 口 少 面积 多 ， 还 有 一 个 在 
右 下 和 角 的 用 “+” 来 表示 的 这 个 古 俄罗斯 ， 它 在 “地 广 人 稀 ” 方 面 古 脱 帘 而 
le 


这 里 唯一 要 解释 的 是 关于 归 一 化 的 问题 即 以 下 两 行程 序 代 码 : 


a = X[: ， 


1] / 17075400.0 * 10000 
b = x[: . 


] / 1392358258.0 * 10000 


归 一 化 问题 是 为 了 解决 由 于 维度 量 纲 或 单位 不 同 所 产生 的 距离 计 
算 问 题 而 进行 的 权重 调整 一 这 几乎 是 数据 控 握 必需 的 工作 ， 一 般 放 
在 数据 准备 阶段 ， 目 的 是 把 两 个 不 同 维度 的 数据 都 投影 《延展 或 压 
缩 ) 到 以 10000 为 最 大 值 的 正方 形 区 域 里 。 如 采 不 做 归 一 化 处 理 ， 在 这 
个 例子 中 ， 会 由 于 人 口 的 数字 OFA) 比 面积 的 单位 (万 平方 干 米 ) 


大 太 多 而 导致 由 于 人 口 差距 产生 的 距离 比重 太 大 ， 失 去 了 多 个 维度 上 
公 类 的 意义 。 如 采 觉 得 不 好 理解 ， 再 举 一 个 更 极端 的 例子 ， 如 有 果 这 里 
人 口 单位 用 人 ， 而 面积 单位 用 万 平方 千 米 ， 那 么 人 口 维度 上 会 用 几 千 
万 或 者 几 亿 来 表示 ,产生 的 距离 差距 是 几 千 万 或 者 几 亿 ; 而 国土 面积 
用 的 是 几 十 或 者 几 百 来 表示 ， 在 距离 估算 的 过 程 中 几乎 可 以 忽略 国土 
面积 参与 计算 的 成 分 。 归 一 化 问题 在 聚 类 中 会 比较 音 遇 到 ， 后 面 第 13 
章 中 同样 有 这 个 话题 的 讨论 。 


关于 参数 这 里 需要 做 一 个 补充 说 明 : 


cls = DBSCAN ( 
eps-2000. 
min samples-1i) 


Fit ( 


yo N aN ML I E 1 日 
这 条 语句 中 有 两 个 参数 ， 一 个 是 eps， 一 个 是 min_samples。 


eps 的 含义 是 设置 一 个 闵 值 ， 在 根据 密度 向 外 扩展 的 过 程 中 如 果 发 
现在 这 个 阔 值 距离 范围 内 找 不 到 向 量 ， 那 么 就 认为 这 个 聚 簇 已 经 查找 
完毕 。 在 这 个 例子 中 设置 的 是 2000， 因 为 归 一 化 以 后 所 有 的 变量 都 落 
在 一 个 10000x10000 的 区 间 单 位 ， 设 置 一 个 2000 的 单位 能 够 充分 把 各 个 
上 健 簇 阳 开 ， 如 果 归 一 化 到 1000x1000 的 区 间 单 位 则 应 该 采用 200 作 为 参 
数值 ， 或 者 设置 其 他 参数 值 来 改变 育 簇 的 原则 。 


min_samples 的 含义 古 告诉 算法 聚 簇 最 小 应 该 拥有 多 少 个 向 量 。 如 
果 这 个 数字 设置 为 93， 那么 算法 会 认为 所 有 小 于 3 个 向 量 的 聚 类 为 噪声 
上 护 ， 会 在 结果 中 直接 丢弃 。 例 如 ， 在 图 9-6 中 ， 如 果 将 min_samples 设 置 
为 3， 则 右 下 角 的 俄罗斯 、 上 面 的 中 国 和 印度 都 将 作为 噪声 点 被 消除 而 


a 


由 于 聚 类 是 一 个 非 监督 学 习 的 过 程 ， 所 以 在 聚 类 的 过 程 中 免不了 
要 多 尝试 几 次 ， 调 整 参 数 ， 以 找 出 最 合理 的 聚 类 方式 。 


9.6 RAIE 


除了 以 上 来 类 的 算法 外 还 有 很 多 聚 类 的 算法 ， 读 者 有 兴趣 可 以 查 
阅 相 关 的 资料 ， 但 是 总 体 思路 都 非常 相近 ， 很 多 只 是 在 不 同 场景 下 计 
算 效 率 不 同 而 已 。 


BERRE AARE? 聚 类 质量 如 何 判 断 呢 ? 下 面 进 行 讨 


案 类 的 质量 评估 和 包括 以 下 3 个 方面 。 


(1) 估计 聚 类 的 趋势 。 对 于 给 定 的 数据 集 ， 评 佑 该 数据 集 是 否 存 
在 非 随 机 结构 ， 也 就 是 分 布 不 均匀 的 情况 。 如 琳 直 接 使 用 各 种 算法 套 
用 在 样本 上 ， 然 后 返回 一 些 类 复 ， 这 些 类 篮 的 分 布 很 可 能 是 一 种 错误 
的 分 类 ， 会 对 人 们 产生 误导 。 数 据 中 必须 存在 非 随机 结构 ， 聚 类 分 析 
才 是 有 意义 的 。 


(2) 确定 数据 集中 的 复数 。 上 述 K-Means 算 法 在 一 开始 就 需要 确 
类 艇 的 数量 ， 并 作为 参数 传递 给 算法 。 这 里 容易 让 人 觉得 有 点 让 
， 即 人 主观 来 决定 一 个 类 簇 的 数量 的 方法 是 不 是 可 取 。 


定 
jE 


(3) 测量 聚 类 的 质量 。 可 以 用 量化 的 方法 来 测量 聚 类 的 质量 。 


9.6.1 RREA 


如 打样 本 空间 里 的 样本 是 随机 出 现 的 ， 本 身 没有 聚 类 的 趋势 ， 那 
么 使 用 案 类 肯定 是 有 问题 的 。 


图 9-7 和 图 9-8 痢 是 在 二 维 空间 里 的 同 量 样 本 ， 图 9-7 所 示 为 随机 样 
本 ， 图 9-8 所 示 为 有 素 类 样本 ， 两 者 的 分 布 样 态 非常 不 同 。 我 们 常用 霍 


普 金 斯 统计 量 (Hopkins Statistics) 来 进行 量化 评估 ° 


图 9-7 随机 样本 


图 9-8 有 聚 类 样本 


第 一 步 ， 从 所 有 的 样本 向 量 中 随机 找 n 个 向 量 ， 把 它们 称 为 p 向 
SES, ^p, usse p, 。 对 每 一 个 向 量 都 在 样本 空 
间 里 找 一 个 离 其 最 近 的 向 量 ， 然 后 求 距离 (用 欧 氏 距离 即 可 ) ， 然 后 
Hh > Xp >a x, 来 表示 这 个 距离 。 


第 二 步 ， 在 所 有 样本 疝 量 中 随机 找 n 个 向 量 ， 把 它们 称 为 q 向 量 ， 
量 分 别 是 qi ^q ^. © 对 每 一 个 癌 量 都 在 样本 空间 里 
找 一 个 离 其 最 近 的 同 量 ， AERER (用 欧 氏 距离 即 可 ) ， 然 后 用 yi 
A RIT ` yn 来 表示 这 个 距离 。 


-l i=l 


^. 


IX, iion dii made diiit 
量 求 距离 然后 加 和 “。 分 母 是 两 项 的 加 和 ， 一 项 是 分 子 ， 一 项 是 p 问 量 的 
每 个 向 量 的 临近 向 量 的 距离 加 和 。 


如 采 整 个 样本 空间 是 一 个 均匀 的 ， 没 有 聚 类 趋势 CREAN) 
的 空间 ， 那 么 H 应 该 为 0.5 左 右 。 反 之 ， 如 果 是 有 聚 类 趋势 (RIRIH 
S) 的 空间 ， 那 么 H 应 该 接近 于 1。 


霍 普 金 斯 统计 量 不 是 一 个 常用 的 统计 指标 ， 相 天 资料 较 少 。 在 R 
语言 里 有 一 个 叫 作 comato 的 包 ， 其 中 clustering.r 这 个 文件 里 会 有 源 代 
f o 


ix HLHIPythonS MEF EHTE, PCR HA Bes AS 
EE o 


霍 普 金 期 统计 量 计算 用 代码 : 


Zcoding-utf-8 
import numpy as np 
from sklearn.cluster import KMeans 
x= 
[9670250, 


1392358258]. 


# 中 国 


[2980000. 


1247923065]. 


# 印 度 


[9629091. 


317408015]. 


[8514877. 


201032714]. 


[377873 


127270000]. 


#AA 


[7692024. 


23540517]. 


# 澳 大 利 


[9984670. 


34591000]. 


# 加 拿 大 


[17075400， 


143551289], 


# 俄 罗斯 


[513115. 


67041000]. 


[181035. 


14805358]. 


# 束 埔 寨 


[99600. 


50400000]. 


HE 


[120538. 


24052231]] sut 


# 转 换 成 


numpy array 
X = np.array ( 


X) 
# 归 一 化 
a = X[ 


1] / 17075400.0 * 10000 
b = x[:. 


/ 1392358258.0 * 10000 


] 
X = np.concatenate ( ( 


axis=1) 


pn = X[np.random.choice ( 


X.shape[0], 


replace=False) ， 


] 


## 随 机 选 出 

3 个 

# [[ 221.29671926 914.06072589 ] 

# [ 70.59161132 172.74455667 ] 

# [ 10000. 1030.99391392]] 
xn - [] 

for i in pn: 


distance min - 1000000 
for j in X 


if np.array equal ( 


continue 


distance = np.linalg.norm ( 


if distance_min > distance 


distance_min = distance 


xn.append ( 


distance min) 


qn = X[np.random.choice (| 


X.shape[60]. 


replace-False), 


] 
# 随 机 选 出 


# [[ 10000. 

# [ 4986.63398808 
# [ 221.29671926 
yn = [] 

for i in qn 


distance min - 
for j in X 


1030.99391392] 
1443.82893444] 
914.06072589]] 


1000000 


if np.array equal ( 


continue 
distance - 


np.linalg.norm | 


if distance_min > distance: 


distance_min = distance 
yn.append | 


distance_min 


H = float ( 


np.sum ( 


yn) ) 


np.sum ( 


xn) 


* np.sum ( 


yn) ) 


print H 
HERA 


0.547 059 223 781 


9.6.2 SANE 


确定 一 个 样本 空间 里 有 多 少 簇 数 也 是 很 重要 的 ， 尤 其 是 在 K- 
Means 这 种 算法 里 一 开始 就 要 求 给 定 要 被 分 成 的 艇 数 。 况 旦 ， 簇 数 的 
猜测 也 会 影响 聚 类 的 结果 ， 艇 数 太 多 ， 样 本 被 分 成 很 多 小 艇 ， 艇 数 太 
少 ， 样 本 基本 没有 被 分 开 ， 都 没有 意义 。 

有 的 资料 上 讲 有 一 种 简单 的 经 验 法 就 是 对 于 n 个 样本 的 空间 ， 设 置 
iei , FERREIRA FENEKE 个 点 。 但 是 这 种 说 法 没有 
找到 太 多 的 依据 ， 只 能 作为 参考 。 

还 有 一 种 方法 叫 “ 肘 方法 ”(The Elbow Method) ， 被 认为 是 一 种 
更 为 科学 的 方式 。 思 路 如 下 。 


壬 试 把 样本 空间 划分 1 个 类 、2 个 类 、3 个 类 、..….…. nth, Beit 
REA AB ARS, Eat Bim SRI RAB TRID ATE, TE 
JURRXIATBUZTIA P. EPR RAAB eR ae PT le, PPR EE E 
Hye] HUD, M ARMARE BAYS A] UD ER e FT EE 
个 类 艇 中 每 个 向 量 和 该 类 艇 重心 的 距离 (大 于 等 于 0) 的 和 。 最 后 把 m 
个 类 艇 各 目的 距离 和 相 加 得 到 一 个 函数 var (n) ，n 就 是 类 艇 数 。 


可 以 想象 ， 这 个 平方 和 最 大 的 时 刻 应 该 是 分 1 个 类 一 一 也 就 古 不 分 
类 的 时 候 ， 所 有 的 癌 量 到 重心 的 距离 都 非常 大 ， 这 样 的 距离 的 和 十 最 
大 的 。 那 么 试 着 划分 成 2 个 类 、3 个 类 、4 个 类 ..….... 随 看 分 类 的 增多 ， 第 
m 次 划分 时 ， 每 个 向 量 到 自己 艇 的 重心 的 距离 会 比 上 一 次 (m-1 次 ) f 
近 的 机 会 更 大 ， 那 么 这 个 距离 和 束 会 总 体 上 缩小 。 极 限 情况 十 最 后 被 
分 了 n 个 类 能，n 是 整个 空间 向 量 的 数量 ， 也 就 是 一 个 同 量 一 个 类 族 ， 
每 个 类 族 一 个 成 员 。 这 种 情况 最 后 距离 的 和 束 变 成 了 0， 因 为 每 个 向 量 
距离 自己 (自己 就 是 重心 ) 的 距离 都 是 0 。 


如 图 9-9 所 示 ，m 从 1 次 、2 次 、3 次 .…... 逐 步 往 上 增加 的 过 程 中 ， 
整个 曲线 的 斜率 会 逐步 降低 ， 而 且 一 开始 是 快速 下 降 的 。 下 降 过 程 中 
有 一 个 所 点 ， 这 一 个 点 会 让 人 感觉 曲线 从 立 陡 变 成 平滑 ， 那 么 这 个 点 
忠 是 要 找 的 点 。 这 个 样本 空间 被 分 为 m 个 类 艇 之 后 ， 再 分 成 更 多 的 类 
徐 时 ， 每 次 的 “收获 ”没有 前 面 每 次 “收获 ”那么 大 ， 此 时 的 m 的 值 整 古 
被 认为 最 为 合适 的 类 艇 数量 。 这 个 点 在 曲线 上 给 人 的 感觉 像 古 人 的 用 
膊 肘 一 样 ， 所 以 被 形象 地 命名 为 “ 肘 方 法 ”。 例如 ， 图 9-9 中 的 A 点 或 者 
B 点 都 可 以 笑 试 作为 这 个 抛 点 。 


VU 


m 


色 9-9 m 与 距离 的 天 系 


但 是 这 个 方法 的 时 间 复 杂 度 可 能 会 相当 高 ， 因 为 每 一 次 等 试 都 要 
计算 ， 可 以 用 来 做 一 次 经 验 总 结 或 者 试探 性 的 数据 分 析 ， 但 是 在 线 计 
算 时 不 推荐 使 用 。 而 且 有 时 候 会 发 现 这 个 点 可 能 不 是 很 好 确定 ， 这 个 
拐点 不 清晰 。 这 种 时 候 适 当地 在 计算 效率 和 收益 程度 上 做 一 个 平衡 即 


可 ， 不 必 太 纠结 ， 毕 竞 聚 类 是 一 个 无 监督 的 学 习 。 


我 们 给 出 Python 的 示例 代码 ， 如 下 所 示 : 


# coding=utf-8 
# 面 积 


km2, AH 


X 


[9670250. 


1392358258]. 


# 中 国 


[2980000. 


1247923065]. 


SEIS 


[9629091. 


317408015]. 


[8514877. 


201032714]. 


[377873. 


127270000]. 


# 日 本 


[7692024. 


23540517]. 


# 澳 大 利 


[9984670. 


34591000]. 


# 加 拿 大 


[17075400, 


143551289]. 


# 俄 罗斯 


[513115. 


67041000]. 


[181035. 


14805358]. 


# 束 埔 寨 


[99600. 


50400000]. 


# 韩 国 


[120538. 


24052231] ] 49k 


# 转 换 成 


numpy array 
X = np.array ( 


X) 
# 归 一 化 
a = X[ 


1] / 17075400.0 * 10000 
b= X[: a 


/ 1392358258.0 * 10000 


] 
X = np.concatenate | 


axis=1) 


# 类 艇 的 数量 


n_clusters = 1 


cls = KMeans | 


n_clusters) 


.fit ( 


HE MRA POD 


cls.cluster_centers_ 
SX T a PS 


cls.labels 
# 曼 哈 顿 距 离 


def manhattan distance ( 


return np.sum ( 


abs ( 


X-y)) 


distance sum = 0 


for i in range ( 


n clusters). 


group = cls.labels == i 


members - X[group 


for v in members. 


distance sum += manhattan_distance ( 


np.array ( 


Ccls.cluster centers ) 


print distance sum 


# 结 果 为 


63 538.244 390 5 


以 上 为 使 用 K-Means 算 法 ， 在 m=1 时 所 计算 的 肘 方 法 的 函数 值 ， 
如 果 想 计算 m 为 其 他 值 时 的 结果 ， 则 修改 代码 : 


n_clusters = 1 


即 可 得 到 对 应 的 距离 值 。 


9.6.3 测定 聚 类 质量 


在 使 用 前 面 介绍 的 方法 确定 了 类 簇 的 数量 后 ， 束 可 以 进行 聚 类 
了 。 但 是 即便 类 复数 量 一 样 ， 聚 类 也 可 能 不 止 一 种 方案 。 


测定 聚 类 质量 的 方法 很 多 ， 一 般 分 为 “外 在 方法 ”和 “内 在 方法 ”两 
种 。 


所 谓 外 在 方法 是 一 种 依靠 类 别 基准 的 方法 ， 即 已 经 有 比较 严格 的 
类 别 定 义 时 再 讨论 聚 类 十 不 是 足够 准确 。 这 里 通常 使 用 "BCubed 精 
度 ” 和 “BCubed 召 回 率 ”来 进行 衡量 。 但 十 外 在 方法 适用 于 有 明确 的 外 
在 类 别 基准 的 情况 ， 而 案 类 是 一 种 无 监督 的 学 习 ， 更 多 是 在 不 知道 基 
准 的 状况 下 进行 的 ， 所 以 我 们 更 倾 同 于 使 用 “内 在 方法 ”。 


“内 在 方法 ?不 会 去 参考 类 篮 的 标准 ， 而 是 使 用 轮廓 系数 


(Silhouette Coefficient) 进行 度量 。 


对 于 有 n 个 回 量 的 样本 空间 ， 假 设 它 被 划分 成 k 个 类 复 ， 即 Cl ^ C, 
`Ck“。 对 于 任何 一 个 样本 空间 中 的 同 量 v 来 说 ， 可 以 求 一 个 v 到 
本 类 簇 中 其 他 各 点 的 距离 的 平均 值 a (v) ， 还 可 以 求 一 个 v 到 其 他 所 有 
各 类 艇 的 最 小 平均 距离 ( 即 从 每 个 类 艇 里 挑选 一 个 离 v 最 近 的 向 量 ， 然 
后 计算 距离 ) ， 求 这 些 距离 的 平均 值 ， 得 到 b (v) ,轮廓 系数 定义 为 


b(v) — a(v) 


s(v) = max[a(v), b(v)] 


一 般 来 说 ， 这 个 函数 的 结果 在 -1 和 1 之 间 。a (v) 表示 的 是 类 艇 内 
WREN, RME, mb (v) 表示 该 类 艇 和 其 他 类 簇 之 间 的 分 
离 程 度 。 如 果 画 数值 接近 1， 即 a(v) 比较 小 而 b (v) 比较 大 时 ， 说 明 
包 合 v 的 类 艇 非 淀 紧 煤 ， 而 且 远 离 其 他 的 类 簇 。 相 反 ， 如 末 函 数值 为 负 
数 ， 则 说 明 a (v) >b (v) ，v 距 离 其 他 的 类 艇 比 距 离 目 己 所 在 类 艇 的 
其 他 对 象 更 近 ， 那 么 这 种 情况 质量 吏 不 太 好 ， 应 该 尽 可 能 避免 。 


为 了 让 聚 类 中 的 类 艇 划分 更 为 合理 ， 可 以 计算 艇 中 所 有 对 象 的 轮 
ARH PIE (但 是 这 个 计算 量 有 可 能 会 相当 大 ， 请 谍 慎 使 用 ) ， 
然后 求 平均 值 。 在 一 种 方案 里 ， 如 采 轮 廓 系数 是 负数 那么 可 以 直接 淘 
汰 ， 如 有 果 有 是 正 数 则 可 以 在 多 个 方案 里 进行 比较 ， 选 择 一 种 轮廓 系数 接 
近 I1 的 方案 。 但 是 计算 时 占用 较 多 内 存 ， 尤 其 生 在 数据 量 巨大 时 ， 在 使 
用 时 请 谍 慎 ， 或 者 使 用 抽样 后 的 数据 进行 计算 。 


下 面 给 出 一 个 用 K-Means 做 完 分 类 后 再 做 聚 类 质量 评估 的 Python 
的 示例 代码 。 


# coding=utf-8 

# encoding=utf-8 

import numpy as n 

from sklearn.cluster import KMeans 
# 面 积 


km2, AH 


X 


= | 
[9670250, 


1392358258]. 


[2980000. 


1247923065]. 


# 印 度 


[9629091. 


317408015]. 


[8514877. 


201032714]. 


[377873. 


127270000]. 


# 日 本 


[7692024. 


23540517]. 


# 澳 大 利 


[9984670. 


34591000]. 


# 加 拿 大 


[17075400， 


143551289], 


# 俄 罗斯 


[513115. 


67041000]. 


HE 


图 


[181035. 


14805358]. 


# 束 埔 寨 


[99600. 


50400000]. 


THESES 


[120538. 


24052231] ] #5 


# 转 换 成 


numpy array 
X = np.array ( 


X) 
# 归 一 化 
a= X[ 


1] / 17075400.0 * 10000 
b = X[: ， 


/ 1392358258.0 * 10000 


] 
X = np.concatenate (| ( 


axis=1) 


# 类 簇 的 数量 


n_clusters = 3 
cls = KMeans ( 


n_clusters 


.fit ( 


# 每 个 复 的 中 心 点 


H 
— 


cls.cluster centers 
##X 中 每 个 点 所 属 的 得 


cls.labels_ 
# 曼 哈 顿 距 离 


def manhattan_distance ( 


X. 
y): 
return np.sum ( 

abs ( 

X-y)) 

#a ( 

V) 

X[9] 到 其 他 点 的 距离 的 平均 值 


distance_sum = 0 
for v in X[1 


distance sum += manhattan distance ( 


np.array ( 


X[O]) . 


np.array ( 


av = distance sum / len ( 


X[1. 


print av 
3411971.5037823 
Hb ( 


x[e] 
distance min - 100000 
for i in range ( 


n_clusters) : 


group = cls.labels_ == i 


members = X[group 


for v in members. 


if np.array_equal ( 


x[o] : 


continue 


distance = manhattan distance ( 


np.array ( 


cls.cluster centers ) 


if distance_min > distance 


distance_min = distance 
bv = distance_sum / n_clusters 
print bv 
#43895 .5138683 
sv = float ( 


bv - av) 


/ max ( 


av. 


print sv 
#0.727272727273 


在 这 种 分 类 方案 下 ， 得 到 的 轮廓 系数 约 为 0.727， 如 果 找 不 到 更 好 
的 方案 ， 这 个 就 已 经 是 最 优 解 了 。 如 果 不 满意 ， 则 修改 以 下 代码 ， 换 
成 其 他 类 篮 值 ， 然 后 查看 轮廓 系数 。 


n_clusters = 3 


9.7 ^N 


案 类 这 一 章 的 内 容 是 机 器 学 习 中 探索 性 较 强 的 一 草 ， 是 一 类 用 归 
纳 方 式 来 进行 认 知 和 观察 的 方法 体系 。 应 该 说 率 类 在 我 们 发 现 和 总 结 
观察 对 象 的 共性 和 规律 方面 还 是 有 很 多 应 用 场景 的 ， 例 如 在 向 量化 相 
对 完整 的 前 提 下 找 出 起 诚 客户 的 共性 、 找 出 流 式 客户 的 共性 、 找 出 疑 
似 在 业务 场景 中 作 兹 的 个 案 等 ， 这 些 都 可 以 笑 试 使 用 案 类 的 方法 进行 
发 握 和 分 析 。 请 大 家 灵活 运用 。 


B10 分 类 


分 类 算法 是 机 妖 学 习 中 的 一 个 重点 ， 也 古人 们 第 说 的 “有 监督 的 学 
'。 这 是 一 种 利用 一 系列 已 知 类 别 的 样本 来 对 模型 进行 训练 调整 分 类 
的 参数 ， 使 其 达到 所 要 求 性 能 的 过 程 ， 也 称 为 监督 训练 或 有 教师 学 


vl 


5 


H 


Ad 


换 名 话说， 首先 知道 大 量 的 样本 对 象 ， 并 且 知 道 这 些 样本 对 象 
的 “特征 ?和 所 属 类 别 ， 把 这 些 数据 告诉 计算 机 ， 让 计算 机 总 结 分 类 的 
原则 ， 形 成 一 个 分 类 模型 ， 再 把 新 的 待 分 类 或 者 说 未 知 分 类 的 样本 区 
给 它 ， 让 它 完成 分 类 过 程 。 


也 就 是 说 ， 先 用 一 部 分 有 种 种 特征 的 数据 和 每 种 数据 归属 的 标识 
来 训练 分 类 模型 ， 当 训练 完毕 后 (等 于 计算 机 学 会 了 应 该 怎么 分 
类 ) ， 再 让 计算 机 用 这 个 分 类 模型 来 区 分 新 的 “ 没 见 过 ”的 只 有 “ 特 
征 *、 没 有 类 别 标识 的 样本 ， 完 成 该 样本 的 分 类 。 


所 以 所 有 的 分 类 算法 不 管 坚 么 变 ， 部 是 在 解决 :“ 某 样本 是 某 对 
象 ， 某 样本 不 是 某 对 象 " 的 概率 问题 。 请 注意 ， 这 里 用 的 是 概率 问题 的 
说 法 。 因 为 从 任何 方面 来 看 ， 目 前 都 没有 办 法 保证 “ 零 误 判 ”， 人 目 己 
尚且 无 法 做 到 ， 束 更 别 说 由 人 教会 的 计算 机 了 。 


分 类 和 回归 看 上 去 有 一 些 相似 之 处 ， 从 直观 感觉 上 去 认识 ， 可 以 
这 么 感觉 : 因 变 量 是 定量 型 的 归纳 学 习 称 为 回归 ， 或 者 说 生 连 续 变 量 
预测 ， 因 丽 量 是 定性 型 的 归纳 学 习 称 为 分 类 ， 或 者 说 是 离散 变量 预 
测 。 


从 实时 收集 的 路 况 来 预测 某 地 段 目 前 的 行车 速度 为 多 少 米 每 秒 是 
典型 的 回归 归纳 过 程 ， 而 预测 这 个 路 段 的 行车 状态 是 “局 通 ”`“ 楷 
忙 ”`\“ 拥 堵 ? 则 是 典型 的 分 类 归纳 过 程 。 


分 类 算法 是 一 大 类 算法 ， 都 是 用 来 解决 这 种 离散 变量 预测 的 ， 举 
例如 下 。 


在 银行 的 信用 卡 审批 这 一 环节 会 用 到 分 类 的 例子 ， 应 不 应 该 给 
个 人 办 理 信 用 卡 呢 ? 应 该 给 一 个 申请 人 分 配 多 少 金额 呢 ? 尤其 在 有 大 
量 的 申请 人 及 调 额 申请 的 情况 下 。 在 这 里 会 比较 密集 地 用 到 分 类 算 
法 。 在 此 只 示意 性 地 进行 说 明 ， 上 毕竟 这 个 过 程 非常 复杂 ， 而 且 不 同 银 
行 的 计算 原则 也 不 尽 相 同 。 


首先 ， 办 理 信用 卡 时 ， 银 行 会 收集 很 多 信息 ， 除 了 身份 证 上 的 姓 
名 、 年 龄 外 ， 婚 姻 状况 、 工 作 类 别 、 年 薪 、 是 否 有 房产 、 是 否 有 汽 


计 规律 得 出 一 个 诸如 : 


适合 办 卡 =f (年 龄 ， 婚 姻 状 况 ， 工 作 类 别 ， 年 薪 ， 是 否 有 房产 ， 
是 否 有 汽车 ， 教 育 情况 ) 的 函数 。 


“适合 办 卡 ” 这 个 值 就 只 有 两 个 ， 一 个 是 1 GES) ， 一 个 是 0 (不 
适合 ) 。 而 函数 {的 计算 过 程 是 为 了 保证 这 个 办 理 与 否 的 评判 更 加 合理 
的 。 也 融 是 说 ， 有 是 不 是 适合 办 理 ， 是 银行 在 用 目 己 的 账目 风险 和 办 理 
人 的 信用 做 一 个 权衡 。 在 统计 (训练 ， 的 过 程 中 ， 把 那些 符合 信誉 
好 的 人 群 特征 甄别 出来 ， 这 样 再 有 申请 信用 卡 的 人 出 现时 ， 束 按照 统 
计 规 律 判 晰 ， 这 个 人 的 特征 是 更 像 那 些 讲 信 用 的 人 还 是 那些 不 讲 信用 
的 人 ， 然 后 做 出 有 是否 办 理 的 判断 。 


而 在 赋予 额度 时 也 有 同样 的 问题 ， 同 样 要 对 这 些 属 性 进行 评 们 ， 
甚至 包括 历史 账 务 记录 是 否 都 为 健康 记录 。 


然后 ， 计 算 机 根据 分 类 算法 会 得 到 一 个 诸如 : 
额度 =f (年 龄 ， 婚 姻 状 况 ， 工 作 类 别 ， 年 薪 ， 是 否 有 房产 ， 是 否 
有 汽车 ， 教 育 情况 ， 账 务 记录 ) 的 函数 。 


这 个 函数 看 上 去 更 像 回归 的 学 习 方 法 ， 因 为 这 个 额度 是 一 个 具体 
的 值 ， 更 像 连续 值 域 的 钞 数 ， 所 以 判断 成 一 个 回归 分 析 也 未 壬 不 可 ， 
只 要 后 面 这 些 目 变 量 都 能 数值 化 。 


说 到 额度 应 该 是 多 少 ， 是 多 点 好 还 是 少 点 好 ， 这 还 是 一 个 平衡 性 
的 问题 。 对 于 每 种 不 同 的 "人群 "来 总 ， 他 们 对 额度 的 需求 实际 上 是 不 
同 的 ， 这 种 额度 应 该 是 他 消费 需求 的 客观 需要 同时 也 是 可 承担 的 一 个 
限制 值 。 额度 给 得 过 低 ， 会 抑制 信用 卡 的 使 用 影响 银行 的 业绩 ， 毕 竞 
有 很 多 大 额 的 消费 无 法 文 付 ， 而 额度 给 得 过 高 ， 会 让 银行 的 风险 变 得 
过 大 ， 因 为 坏账 变 多 也 难以 避免 。 


经 过 训练 后 的 模型 会 得 到 一 个 相对 比较 合理 的 额度 值 ， 既 符合 该 
人 群 特征 的 消费 额度 需求 ， 又 能 够 兼顾 风险 的 保障 。 从 中 得 到 的 一 个 
样本 的 特征 和 最 后 额度 之 间 的 关系 ， 其 实 就 是 判定 这 个 样本 古 否 应 该 
为 某 额度 的 概率 最 高 。 


分 类 应 用 的 场景 比 案 类 其 实 要 多 得 多 ， 那 么 分 类 的 训练 算法 有 多 
少 种 呢 ? 非常 多 ， 而 且 很 多 算法 有 变种 或 者 衍生 算法 ， 说 有 几 百 种 也 
不 夸张 ， 我 们 在 这 里 只 介绍 一 些 最 为 经 典 和 普 适 的 方法 。 


10.1 fM DITS 


托马斯 : 贝 叶 斯 (Thomas Bayes, £41701-176145E) ， 主 业 为 牧 
师 ， 副 业 为 数学 家 (图 10-1 趾 ) 。 他 在 数学 方面 的 主要 贡献 在 概率 论 
上 ， 他 首先 将 归纳 推理 法 用 于 概率 论 基 础 理论 ， 并 创立 了 贝 叶 斯 统计 
理论 ， 在 统计 决策 函数、 统计 推断 、 统 计 的 估算 等 领域 做 出 了 卓越 的 
贡献 。1763 年 发 表 了 名 为 《机 会 学 说 中 一 个 问题 的 解 》 论 著 ， 对 于 现 
代 概 率 论 和 数理 统计 都 有 很 重要 的 作用 。 贝 叶 斯 的 另 一 著作 《机 会 的 
学 说 概论 》 人 发 表 于 1758 年 。 


v 


ag 


托马斯 ' 贝 叶 斯 


pi 


图 10-1 


贝 叶 斯 决策 理论 征 主 观 贝 叶 斯 派 归 纳 理论 的 重要 组 成 部 分 。 


贝 叶 斯 决策 理论 方法 是 统计 模型 决策 中 的 一 个 基本 方法 ， 基 本 思 
想 如 下 


(1) 已 知 关 条 件 概率 密度 参数 表达 式 和 先 验 概率 。 
(2) 利用 贝 叶 斯 公式 转换 成 后 验 概率 。 
(3) 根据 后 验 概率 大 小 进行 决策 分 类 。 


简单 地 说 ， 朴 素 贝 叶 斯 算法 是 利用 统计 中 的 “条 件 概 率 ” 来 进行 分 
类 的 一 种 算法 。 前 面 的 草 市 介绍 的 古典 概 型 的 概率 计算 方法 ， 束 古 扔 
硬币 的 那 种 ， 穷 举 出 所 有 的 情况 ， 然 后 看 看 每 种 情况 的 占 比 ， 这 都 是 
基于 排列 组 合 的 思路 去 做 概率 分 析 。 


朴 聂 贝 时 斯 分 类 的 方式 不 太一 样 。 贝 叶 斯 概率 研究 的 是 条 件 概 
率 ， 也 就 是 研究 的 场景 束 是 在 带 有 某 些 前 提 条 件 下 ， 或 者 在 某 些 背 景 
条 件 的 约束 下 发 生 的 概率 问题 。 


我 们 先 给 出 这 个 著名 的 贝 叶 斯 公式 : 


WD, ^D, ^ ...... ` D, 为 样本 空间 $ 的 一 个 划分 ， 如 果 以 P (D; ) 
表示 Di; 发 生 的 概率 ， 且 P (Dj) >0 G51, 2, ..., n) 。 对 于 任何 一 
个 事件 x，P (x) >0， 则 有 


P(x|D,)P(D,) 


> P(x | DPD) 


PD; [x)= 


解释 如 下 。 


在 一 个 样本 空间 里 有 很 多 事件 发 生 ，D; 就 是 指 不 同 的 事件 划分 ， 
并 且 用 Di 可 以 把 整个 空间 划分 完毕 ， 在 每 个 Di 事件 发 生 的 同时 部 记录 
事件 x 的 发 生 ， 并 记录 Di 事件 发 生 下 x 发 生 的 概率 。 等 式 右 侧 的 分 母 部 
分 就 是 Di 发 生 的 概率 和 Di 发 生 时 x 发 生 的 概率 的 加 和 ， 所 以 分 母 这 一 
项 其 实 就 是 在 整个 样本 空间 里 x 发 生 的 概率 。P (Di |x) 这 一 项 是 指 x 发 
生 的 情况 下 ，Di; 发 生 的 概率 。 不 难看 出 ， 左 侧 和 右 侧 分 母 项 相 乘 得 到 
的 是 在 全 样本 空间 里 ， 在 x 发 生 的 情况 下 又 发 生 Di; 的 情况 的 概率 。 石 
侧 分 子 部 分 的 侣 义 是 Di 发 生 的 概率 乘 以 D; 发 生 的 情况 下 又 发 生 x 的 概 


所 以 最 后 等 式 两 边 就 化 简 为 
P(Djx)P(x) = PCGlD))PCD)) 
也 就 是 说 ， 在 全 样本 空间 下 ， 发 生 x 的 概率 乘 以 在 发 生 x 的 情况 下 
RED 的 概率 ， 等 于 发 生 Di 的 概率 乘 以 在 发 生 Di; 的 情况 下 发 生 x 的 概 
率 ， 如 图 10-2 所 示 。 


图 10-2 条件 概率 示意 


左 侧 的 圈 是 x 发 生 的 概率 ， 右 侧 的 圈 是 D; 发 生 的 概率 ， 中 间 交 集 
的 部 分 就 是 等 号 两 边 各 自 表示 的 内 容 。 


贝 叶 斯 分 类 器 通常 是 基于 这 样 一 个 假定 : “给 定 目标 值 时 属性 之 间 
相互 条 件 独立 ”。 
基于 这 种 “朴素 ”的 假定 ， 贝 叶 斯 公式 一 般 简 写 为 
P(A|B)P(B)-P(BA)P(A) 


上 式 也 称 为 朴素 贝 叶 斯 公式 (算法 、 定 理 、 分 类 模型 ) 


Bayesian ° 


Naive 


在 有 的 资料 上 ， 会 看 到 如 下 说 法 。 


P (A) 叫做 A 事件 的 先 验 概率 ， 就 是 一 般 情况 下 ， 认 为 A 发 生 的 


P (BIA) 叫做 似 然 度 ， 是 A 假设 条 件 成 立 的 情况 下 发 生 B 的 概率 。 


P (AB) 叫做 后 验 概 率 ， 在 B 发 生 的 情况 下 发 生 A 的 概率 ， 也 就 是 
要 计算 的 概率 。 


P (B) 叫做 标准 化 常量 ， 和 A 的 先 验 概率 定义 类 似 ， 就 是 一 般 情 
况 下 ，B 的 发 生 概率 。 


朴素 贝 叶 斯 分 类 器 是 在 机 器 学 习 中 应 用 最 广 沁 的 一 种 分 类 右 。 与 
其 说 这 是 一 个 公式 ， 不 如 说 这 是 一 种 思想 或 者 思维 方式 ， 在 人 们 生产 
生活 中 使 用 朴素 贝 叶 斯 分 类 器 的 思维 解决 问题 比 直接 套用 公式 的 机 会 


多 得 多 。 


[1] 图 片 来 源 于 百度 图 库 。 


10.1.1 天 气 的 预测 


天 气 预 报 一 般 是 基于 天 气 图 、 卫 星云 图 和 雷达 图 来 做 的 ， 预 报 的 
内 容 很 多 ， 如 降水 情况 、 风 力 、 风 同等 。 


大 气 变化 是 混沌 的 (Chaotic) 这 一 瞬间 的 天 气 情况 会 由 于 之 
后 一 系列 不 可 预测 的 扰动 行为 而 变 得 不 可 预测 。 也 可 以 说 ， 即 便 两 个 
完全 一 模 一 样 的 瞬时 大 气 状况 ， 由 于 之 后 一 系列 不 可 预测 的 行为 不 断 
进行 干扰 而 产生 完全 两 种 截然 不 同 的 天 气 结果 。 所 以 有 那么 一 名 
话 : “亚马逊 雨林 一 只 蝴蝶 翅膀 偶尔 振动 ， 也 许 两 周 后 吏 会 引起 美国 得 
克 耶 斯 州 的 一 场 龙 眷 风 。” 这 是 20 世 纪 70 年 代 ， 美 国 一 个 名 叫 阁 伦 兹 的 
气象 学 家 在 解释 空气 系统 理论 时 做 的 一 个 形象 的 比喻 ， 后 来 这 个 说 法 
被 形象 地 称 为 “蝴蝶 效应 ”。 


天 气 的 预测 是 非常 困难 的 ， 变 化 快 且 计算 量 巨大 ， 所 以 人 们 虽然 
总 在 埋怨 气象 台 预 报 不 准确 却 没 有 什么 有 效 的 办 法 做 出 实质 性 的 改 
进 。 融 好 像 在 这 一 刻 预测 明天 一 天 会 打 几 个 电话 一 样 ， 问 题 是 不 知道 
明天 会 打 几 个 电话 ， 也 不 知道 会 不 会 需要 打 电话 给 别人 ， 也 同样 不 知 
道别 人 会 不 会 打 电 话 找 目 己 ， 未 知性 在 这 个 场景 里 是 绝对 性 的 。 但 
征 ， 在 预测 天 气 时 还 是 有 一 些 手段 可 以 答 试 的 。 


曾经 有 一 段 时 间 ， 在 天 气 预报 中 有 一 种 说 法 叫做 “降水 概率 "， 如 
明天 天 气 阴 转 多 云 降水 概率 409%。 很 多 人 在 听 到 这 样 的 预报 时 不 知 所 
云 ,，“ 降 水 概率 40%， 那 明天 到 的 是 下 雨 还 古 不 下 雨 ? 真是 一 种 不 负责 
任 的 说 法 。” 其 实 气 象 台 说 的 是 一 个 确定 的 事情 。 


在 长 期 研究 天 气 变 化 的 过 程 中 ， 会 发 现 极 端的 变化 还 是 少数 ， 大 
部 分 的 天 气 变 化 有 一 定 的 规律 可 循 。 虽 然 确 实 不 知道 未 来 大 气 变化 的 
具体 情况 ， 但 是 还 古 有 一 些 经 验 可 以 借鉴 的 ， 如 今天 天 气 非常 阴沉 ， 
那 下 十 的 可 能 性 吏 是 比 啊 晴 白 日 的 时 候 大 很 多 。 利 用 统计 学 知识 和 手 
段 ， 从 大 量 的 历史 数据 中 可 以 笑 试 做 出 一 个 贝 叶 斯 分 类 模型 ， 从 而 判 
断 出 降水 概率 一 一 依据 现在 的 大 气 状 况 ， 未 来 24 小 时 降水 概率 为 多 


少 。 


为 了 简化 说 明 过 程 ， 示 意 性 地 只 列 出 一 个 地 区 10 天 中 每 一 天 的 天 
气 情况 ， 如 表 10-1 所 示 。 


表 10-1 一 个 地 区 10 天 中 每 一 天 的 天 气 情况 


日 期 天 气 情 况 
l 晴 
2 阴 
3 降水 
4 阴 
5 降水 
6 He 
7 晴 
8 和 多云 
9 降水 

10 降水 


根据 这 10 天 的 天 气 情况 来 看 ，10 天 里 面 降水 4 次 ， 也 就 是 降水 概率 
40%， 这 是 从 全 部 统计 的 数据 来 看 的 。 但 是 如 果 当 天 是 阴 天 呢 ? 阴 天 
的 日 期 为 2、4 两 天 ， 它 们 的 第 二 天 都 是 降水 ， 所 以 当天 是 阴 天 的 情况 
下 ， 降 水 概率 为 2=2=1009% ° 


RASI 

P(D,\x) P(x) = P(x|D,)P(D,) 
P (x) 就 是 阴 天 的 概率 ， 为 20% ° 
P (Dj) 就 是 降水 的 概率 ， 为 40%。 


P (x|D; ) 指 的 是 降水 的 前 一 天 是 阴 天 的 概率 ， 为 50% 。 


P (D, |x) 是 要 求 的 当天 为 阴 天 ， 第 二 天 降水 的 概率 ， 算 出 来 为 
100% ° 


WARS Keele Ave? 晴天 的 日 期 为 1、6、7， 而 晴天 的 第 二 天 的 天 
气 情 况 分 别 古 阴 、 晴 、 多 云 ， 降 水 概率 为 0% 。 


RASH: 
P(D,|x)P(x) = P(x|D,)P(D)) 
P (x) 就 是 晴天 的 概率 ， 为 30% ° 
P (D;) 就 是 降水 的 概率 ， 为 40% ° 
P (xD) 指 的 是 降水 的 前 一 天 是 晴天 的 概率 ， 为 0% 。 


P (Dip) 是 要 求 的 当天 为 晴天 ， 第 二 天 降水 的 概率 ， 算 出 来 为 
0% ° 


同样 ， 如 果 当 天 是 晴天， 第 二 天 天 气 为 多 云 的 概率 为 33%， 为 睛 
天 的 概率 为 33%， 为 阴 的 概率 同样 为 33%。 


再 回 过 来 看 气象 台 报 的 “明天 降水 概率 40%” 就 能 理解 了 吧 ， 从 历 
史 角 民 来 看 真 的 就 是 有 40% 的 天 气 会 降水 还 有 60% 不 会 降水 。 
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定 不 是 10 天 这 么 少 的 样本 ， 肯 定 是 长 期 的 天 气 样本 信息 ， 这 些 因素 的 
多 少 直接 决定 了 模型 的 复杂 程度 。 下面 将 给 出 一 段 用 Python 进行 实现 
的 代码 。 


在 给 出 代码 之 前 要 补充 说 明 一 下 ， 在 Python 的 Scikit-learn 库 中 虽然 
对 朴素 贝 叶 斯 分 类 算法 做 了 实现 ， 但 是 对 于 建 模 针对 性 的 问题 ， 分 别 
做 了 以 下 几 种 贝 叶 斯 分 类 的 变种 模型 封装 。 


(1) 高 斯 朴素 贝 叶 斯 (Gaussian Naive Bayes) ; 
(2) 多 项 式 朴素 贝 叶 斯 (Multinomial Naive Bayes) ; 
(3) 伯 努 利 朴 素 贝 时 斯 (Bernoulli Naive Bayes) ° 


这 3 种 训练 的 方式 非常 相近 ， 引 用 时 所 写 的 代码 也 非常 滑 短 。 其 
中 ， 高 斯 朴素 贝 叶 斯 是 利用 高 斯 概率 密度 公式 来 进行 分 类 拟 合 的 。 多 
项 式 朴素 贝 叶 斯 多 用 于 高 维度 问 量 分 类 ， 最 常用 的 场景 是 文章 分 类 。 
伯 努 利 朴素 贝 叶 斯 一 般 是 针对 布尔 类 型 特征 值 的 问 量 做 分 类 的 过 程 。 


本 例 使 用 高 斯 裤 么 贝 叶 斯 模型 ， 代 码 如 下 : 


from sklearn.naive_bayes import GaussianNB 
#0: Hi 


data table = [["date", 


"weather", 

[35 
9]. 

[2. 
1]. 

[3. 


2]. 


1]. 


2]. 


0]. 


9]. 


3]. 


1]. 


[10. 


1]] 
# 当 天 的 天 气 


X = [[0]. 


[1]. 


[2]. 


[1]. 


[2]. 


[0]. 


[0]. 


[3]. 


[1]] 


# 当 天 的 天 气 对 应 后 一 天 的 天 气 


y = [1 


1] 
# 现 在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 


clf = GaussianNB () 


.fit ( 


y) 


p = [[1]] 
print clf.predict | 


10.1.2 ”疾病 的 预测 


在 百度 中 输入 “基因 测序 ”进行 搜索 ， 会 发 现 很 多 公司 承接 基因 测 
序 的 工作 ， 其 中 也 有 一 些 面 向 一 般 个 人 的 测序 工作 。 测 试 完成 以 后 ， 
这 些 公司 会 给 出 一 个 比较 完整 的 报告 ,里面 记 载 厦 这 些 基 因 的 各 种 相 
天 信息 。 


其 中 ， 有 一 些 关 于 性 格 、 身 高 、 血 型 等 的 数据 ， 由 于 人 们 在 成 长 
的 过 程 中 已 经 比较 了 解 目 己 的 这 些 信息 了 ， 所 以 似乎 不 会 太 关 心 。 但 
是 有 一 些 内 容 还 是 会 比较 关心 的 ， 如 关于 外 患 疾病 的 预测 一 一 乌 患 冠 
心病 的 概率 为 20%， 钵 患 阿 尔 兹 海 默 综合 征 的 概率 为 5%， 截 患 则 金森 
氏 病 的 概率 为 12% 等 。 这 些 就 是 通过 基因 测序 得 到 的 预测 结论 。 


这 个 预测 过 程 也 是 一 个 分 类 过 程 ， 训 练 样本 是 大 量 的 个 体 基因 信 
四 和 个 人 的 疾病 信息 。 然 后 通过 建 模 分 析 ， 最 后 得 到 一 个 基因 片段 和 
乌 患 疾病 之 间 的 概率 转换 关系 ， 这 也 是 一 个 比较 典型 的 朴素 贝 叶 斯 分 
类 模型 。 


示意 性 地 做 一 个 训练 过 程 ， 训 练 样本 如 表 10-2 所 示 。 


表 10-2 训练 样本 


cape SERRA | 基因 片段 B | 高 Mag | 基因 片段 A | 基因 片段 B | 高 血压 | BAA 
1 1 1 1 0 f 是 
2 0 0 0 1 是 是 
3 0 1 0 0 e f 
4 1 0 1 0 是 (i 
5 1 1 0 1 f 是 


假设 能 够 得 到 一 个 关于 病 患 所 得 的 疾病 和 基因 片段 之 间 的 关系 记 
孙 ， 这 是 一 个 客观 统计 的 结果 。 需 要 注意 的 是 ， 这 种 记录 是 忽略 其 他 
建 模 因素 的 记录 ， 如 这 位 病 患 所 生活 的 城市 、 所 从 事 的 工作 、 是 否 有 
烟 酒 习惯 等 ， 这 些 因素 是 没有 参与 建 模 的 ， 直 接 假设 乌 患 这 些 疾病 只 
和 基因 状况 有 关 。 


如 果 有 一 个 用 户 来 做 基因 测序 ， 测 试 结 果 为 基因 片段 A、B 分 别 为 
1、0， 那 么 他 和 己 患 高 血压 和 胆 结石 两 种 疾病 的 概率 分 别 为 多 少 ? 


在 这 个 例子 里 ， 需 要 明确 以 下 公式 : 


P(B | A)P(A) 


P(B) 


P(A|B)= 


式 中 的 每 个 值 分 别 指 代 什 么 ? DIT RR BA 09] 


P (A) 是 先 验 概率 ， 即 全 局 性 的 高 血压 羽 患 概率 ， 在 10 个 人 中 有 3 
个 人 患 病 ， 即 概率 为 3/10。 


P (BIA) 是 似 然 度 ， 表 示 高 血压 患者 中 基因 是 “10” 型 的 患者 数 
量 。 在 3 位 高 血压 患者 中 只 有 1 位 患者 的 基因 是 “10” 型 ， 即 概率 为 1/3。 


P (B) 是 标准 化 常量 ， 是 “10” 型 基因 出 现 的 概率 ， 在 10 个 人 中 出 
现 3 例 ， 即 概率 为 /10。 


P (AJB) 可 以 代入 求解 ， 得 到 1/3。 


交叉 难 证 一 下 ， 先 看 全 局 中 所 有 的 “10?" 型 基因 的 患者 ， 有 3 位 ， 即 
4 号 、6 号 和 9 号 。 得 高 血压 的 只 有 9 号 一 人 ， 所 以 从 这 个 角度 去 计算 也 


是 1/3。 


下 面 给 出 完整 的 训练 和 分 类 的 代码 示例 : 


# 基 因 片 段 


B 高 血压 胆 结石 


#1: 


data_table = [ 
[1. 


9]. 


[0. 


1]. 


[0. 


9]. 


[1. 


9]. 


[1. 


1]. 


[1. 


1]. 


[0. 


1]. 


[0. 


9]. 


[1. 


9]. 


[0. 


1] 
sre 


= [[1. 
X = 


1]. 


[0. 


9]. 


1]. 


0]. 


1]. 


9]. 


1]. 


[0. 


9]. 


9]. 


yi = [1 


9] 
# 训 练 


clf = GaussianNB () 


.fit ( 


yl 


# 预 测 


p = [[1， 


0]] 
print clf.predict ( 


# 结 果 为 


y2 = [0. 


1] 
# 训 练 


clf = GaussianNB () 


.fit( 


y2 


# 预 测 


p = [[1， 


0]] 
print clf.predict | 


当 模型 中 有 更 为 丰富 的 信息 ， 如 加 入 生活 的 城市 、 从 事 的 工作 、 
征 否 有 烟 酒 习 惯 ， 还 可 以 加 入 是 否 多 盐 、 征 否 多 糖 等 饮食 习惯 等 内 容 


来 丰富 这 个 模型 。 
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在 本 章 的 最 后 ， 我 们 先 不 管 算 法 ， 也 不 管 各 种 公式 ， 我 们 融 看 看 
贝 叶 斯 理论 体系 是 在 干什么 ? 


在 我 看 来 ， 贝 叶 斯 的 理论 体系 其 实 揭示 的 是 一 种 非常 典型 的 人 类 
目 身 的 推测 逻辑 行为 。 


例如 ， 在 黄昏 的 时 候 走 在 目 己 居住 的 小 区 里 ， 光 线 很 昏暗 ， 前 面 
突然 内 过 一 个 影子 ， 从 路 一 边 的 草丛 蹄 到 另 一 边 ， 速 度 较 快 体型 较 
大 ， 其 他 信息 没 捕捉 到 。 这 时 候 大 概 会 猜测 ， 这 有 可 能 是 一 只 较 大 的 
家 大 。 而 如 采 是 在 非洲 大 草原 上 ， 从 越野 车 里 同样 看 到 异 暗 的 草原 上 
蹄 过 一 个 速度 较 快 体型 较 大 的 动物 ， 也 许 会 猜测 那 是 一 头 独 于， 或 者 
一 头 猎豹 。 这 两 种 猜测 对 于 捕捉 到 的 对 象 信息 都 是 非常 有 限 的， 而 且 
内 容 相 近 ， 但 是 得 出 两 种 不 同 的 推测 。 原 因 很 滑 单 ， 束 是 因为 当时 的 
环境 不 同 ， 导 致 的 两 种 事件 的 概率 不 同 ， 市 有 比较 明确 的 倾 癌 性 。 也 
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手段 的 场景 确实 非常 多 ， 十 一 种 使 用 很 广泛 的 方式 ， 所 以 也 很 重要 。 
后 续 章 下 将 会 介绍 用 朴 聂 贝 叶 斯 算法 进行 文章 分 类 ， 硕 望 读者 能 够 灵 
活 掌握 。 


10.2 ”决策 树 归 纳 


决策 树 也 是 一 种 常用 的 方式 ， 这 种 方式 几乎 是 人 们 可 以 无 师 自 通 
的 。 


在 平时 做 决定 的 时 候 常 常 也 会 有 一 些 原则 尺度 可 以 用 一 棵 树 来 表 
zh, FERAT 


假如 一 个 男生 安排 休息 日 的 活动 时 思路 如 图 10-3 所 示 。 


能 : 看 电影 不 能 : 约 打球 


: 约 吃 饭 


f. 找 游戏 


图 10-3 ”安排 活动 的 思路 


按照 优先 程度 : 


如 琳 能 约会 号 去 看 电影 ， 


耕 不 能 ， 如 来 能 约 到 球 友 就 去 打球 ， 


大 不 能 ， 如 来 能 约 到 饭 友 就 去 下 馅 子 ， 


“Ge, WRAPA PREC, 


奉 不 能 ， 如 条 有 好 玩 的 游戏 吏 目 己 玩 ， 


奉 不 能 ， 这 些 都 没有 那 惑 在 家 睡觉 。 


这 其 实 就 古 一 个 比较 典型 的 决策 树 ， 一 个 样本 ， 如 某 一 天 具体 的 
客观 情况 ， 从 树 根 〈 树 是 倒 着 从 上 往 下 长 的 ， 但 也 可 以 画 成 从 下 往 
上 、 从 左 往 右 、 从 右 往 左 ， 不 影响 逻辑 的 表达 ) 开始 一 步 一 步 最 后 落 
入 决策 结果 ° 


再 如 某 大 龄 女 青 年 在 相 杀 网 站 进行 海 选 ， 因 为 资源 太 多 而 利己 精 
力 有 限 ， 所 以 肯定 十 要 进行 相 节 决策 的 ， 如 图 10-4 所 示 。 


| 年 龄 与 35 


岁 相 比 | 


大 于 : 不 见 


小 于 : 年 收入 与 20 万 元 相 比 


v 


X: 硕士 学 历 | 


WE: 身高 与 
175 cm 相 比 


EAE: 见面 


以 上 : 


小 : 硕士 学 历 | 


unii 


以 下 : 里 高 与 


180 em 相 比 


Vb: 见面 以 下 : 不 见 


图 10-4 ”相亲 决策 


| 以 上 : 见面 | 


| 以下: 不 见 | 


年 龄 35 以 上 直接 拉 黑 ， 年 龄 35 以 下 可 以 考虑 见面 。 


年 收入 20 万 元 以 上 的 ， 属 于 比较 有 能 力 的 高 质量 男性 ， 其 他 条 件 


可 以 适当 放宽 。 


如 果 学 历 为 硕士 以 上 ， 身 高 不 够 175cm 也 可 以 ; 如 果 学 历 为 本 科 及 
以 下 ， 那 么 身高 必须 在 175cm 以 上 。 


如 末年 收入 20 万 元 以 下 ， 要 看 十 不 是 “潜力 股 "， 或 者 颜 值 是 否 够 


IR] ° 


如 果 学 历 为 硕士 以 上 ， 不 够 180cm 吴 高 也 可 以 ; 如 果 学 历 为 本 科 及 
以 下 ， 那 么 喘 高 必须 在 180cm 以 上 。 


本 例 同样 是 根据 样本 一 一 对 该 大 龄 女 青 年 打招呼 的 男性 的 情况 从 
树 根 开始 走 决 策 树 ， 最 后 决定 是 相亲 还 十 不 相亲 。 当 然 实 际 生 活 中 相 
杀 的 条 件 还 是 很 复杂 的 ， 尤 其 还 要 苇 “ 眼 缘 ” 这 种 超级 难 量 化 的 东西 ， 
哪 是 这 么 一 张 图 这 两 三 个 条 件 承 全 都 表达 清楚 。 特 别 声明 一 下 ， 本 人 
对 年 龄 、 收 入 、 学 历 及 号 高 不 够 目 信 的 男性 绝 没 有 层 视 的 意思 ， 这 里 
只 是 做 个 无 厘 尖 的 比方 而 已 。 


上 述 两 个 例子 实际 上 有 古 一 种 比较 “主观 ”的 决策 树 构 造 方式 ， 把 决 
策 树 世 点 的 分 裂 条 件 直接 决定 下 来 形成 规则 ， 但 是 下 面 重 点 讨论 的 是 
决策 树 归 纳 方式 。 
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识 过 程 。 解 释 如 下 。 


总 结 出 第 一 柠 决 策 树 旦 根据 茶 人 长 期 以 来 进行 休 妃 日 行为 决策 的 
APM RIAA STRAY, Me Ht EL Ra 
进行 总 结 和 口述 ;那么 第 二 栋 决 策 树 也 不 是 某 人 目 己 直接 口述 而 来 
的 ， 而 是 她 在 网 站 上 进行 不 断 地 互动 和 相 杀 ， 通 过 计算 机 学 习 归 纳 总 
结 出 来 的 。 这 种 归纳 总 结 的 过 程 比 从 陈述 而 来 的 过 程 可 能 更 为 客观 和 
准确 一 一 所 谓 察 其 言 不 如 观 其 行 。 


况且 更 多 时 候 确实 是 没有 机 会 听 别 人 陈述 ， 更 多 的 是 在 观察 和 总 
结 中 认识 世界 ， 目 己 总 结 出 知识 和 规律 。 这 才 是 整个 分 类 算法 体系 要 


研究 的 内 容 。 


10.2.1 样本 收集 


为 了 把 整个 归纳 过 程 讲 述 清 楚 ， 还 是 沿用 上 述 相 杀 的 例子 来 做 说 
明 。 可 以 想象 ， 相 亲 网 站 的 运 宫 人 员 也 没有 可 能 去 跟 她 做 一 个 访谈 来 
了 解 到 她 对 相亲 决策 过 程 的 描述 ， 怎 么 办 ? 如 果 能 够 拿 到 她 相亲 结 


的 反馈 ， 如 跟 谁 见 过 面 等 反馈 ， 


假设 相亲 信息 表 如 表 10-3 所 示 。 


表 10-3 ”相亲 信息 


束 很 容易 归纳 出 她 的 集 上 略 了 。 


网 站 ID 年 龄 ( 岁 ) 高 (cm) 年 收入 (万 元 ) 学 历 有 否 相亲 
DOUXXUXOUM 25 179 15 KE N 
XXXXXXX 33 190 19 KE Y 
XSGUXXXXX 28 180 18 硕士 Y 
XXXXXXX 25 178 18 硕士 Y 
XOGOXXXX 46 177 100 硕士 N 
XXXXXXX 40 170 70 AR N 
XXXXXXX 4 174 20 硕士 Y 
XXX 36 181 55 TR N 
XXXXXXX 5 170 25 硕士 3 
XXXXXXX 30 180 35 | 本 科 X 
XXXXXXX 28 174 30 AR N 
SOCXXXXX 29 176 36 AR Y 


假设 拿 到 真实 的 12 个 样本 ， 


做 出 相亲 决策 没有 什么 影响 ， 所 以 直接 忽略 ， 


项 。 


由 于 网 站 ID 这 种 信息 对 大 龄 女 青年 们 


下 面 来 看 后 面 的 数据 
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下 ， 其 他 的 数据 项 能 不 能 做 树 根 ? 另外， 是 不 是 一 定 要 用 大 于 或 小 于 
35 乡 作为 树 根 分 裂 的 条 件 呢 ， 不 能 是 34 图 或 者 36 罗 吗 ? 是 不 是 存在 一 
种 比较 科学 或 考 客 观 的 方法 能 够 找到 这 个 搞 述 最 商 污 的 方式 呢 ? 这 里 
需要 用 到 一 个 重要 的 概念 ， 即 信息 增益 。 


10.2.2 ”信息 增益 


在 介绍 信息 增益 之 前 先 要 介绍 信息 精 ， 在 第 6 章 中 提 到 过 信息 粒 的 
概念 和 计算 方法 。 信 息 粒 是 用 来 描述 信息 混乱 程度 或 者 说 确定 程度 的 
—^M& IEEE. MAK; EER, ARR] e 


整个 样本 集合 的 篇 如 下 : 


m 


Info - — p, log, p, 


i=l 


这 又 是 一 个 加 和 结果 ，m 的 数量 就 是 最 后 分 类 (决策 ) 的 种 类 ， 这 
个 例子 里 m 就 是 2 一 一 要 么 见面 要 么 不 见面 。p; 指 的 实际 是 这 个 决策 项 
产生 的 概率 。 本 例 中 有 两 个 决策 项 ， 一 个 是 N (不 相亲 ) ， 概 率 为 
5/12， 一 个 是 Y (相亲 ) ， 概 率 为 712， 这 个 概率 就 是 从 拿 到 的 完整 的 
相亲 记录 里 得 到 的 结论 了 “。 迷 为 


B. 8 TJ, 4) | 
[toes 5 + on. 7 |-0.98bit 
lig m. q2 T 


QUANH DER TUE. BUS EE TEE, e 


现在 要 做 的 十 挑 出 这 个 “ 树 根 "”， 挑 出 “ 树 根 ”的 原则 是 这 一 个 护 挑 出 
来 一 刀 切 下 去 ， 要 尽 可 能 消除 不 确定 性 ， 最 好 一 思 下 去 束 把 两 个 类 分 


RAE, DRAMA AGAETETE PAE AE IK, WR ie 
Af MIB RE OR, DEAH, BONUS SLR EBS, fü 
BIA AR, BRA TRA BE ses MEL UA fe E RL 
1K, MORIN BAD, WER o 


所 以 试 试看 完 竟 用 哪个 字段 做 树 根 能 够 使 得 消除 信息 混杂 的 能 力 
ER o 


(BOAR TSF ECARD, TEMA RU] PES ZS 


Info, - —» p, -Info(4,) 
jal 


AF, Info, eS KH, AMM SII, EPER 
划分 为 多 少 组 ，A 字 段 有 3 个 枚 举 值 ， 表 示 划 分 成 3 组 ， 如 例子 中 “学 
历 " 字 段 就 有 3 个 枚 举 值 ， 那 么 用 "学 历 ” 字 段 划 分 就 是 v=3 的 情况 。Pi 表 
示 这 种 分 组 产生 的 概率 ， 也 可 以 认为 是 一 种 权重 ， 即 3 种 学 历 各 自 占 的 
比例 ， 这 里 大 专 是 2/12， 本 科 是 5/12， 硕 士 是 5/12。Info (A) 是 在 当 


J 
前 分 组 状态 下 的 期 望 信息 值 。 


具体 来 看 看 用 "学历 ”字段 做 分 割 的 情况 下 ， 业 有 什么 变化 。 


把 上 面 的 公式 展开 : 


i ane AAT) + (ALM) ] 


~[ Pre X AE APEDR) + (pu X er ee 


( 

2 (1 S2 SUIS 
ES ve og,i4 viti] H E = log, 2+ gi - E (4 -log, $+ | 
l | 3 x| -3x0.737-2x1.32) is 3 x{ - «0322-1232 
2 2 2 5 2 \ 5 5 


uA 


信息 增益 如 下 : 


Gain ( ¥ Jj )=Info—Info » 
—0.98—0.872 
=0.108 bit 
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益 最 大 的 那 种 方式 ， 那 么 还 需要 试 试 其 他 字段 是 否 有 更 大 的 信息 增 


2n 


m 


| 


o 


BER FRE eae RAW fS Ba. BE FRF 
BERMI, "EXEC MESA EL, MBER AE, WEST 
PASE o CPT TAI i EES SF REL TSIEN DR, Ria 
刀 切 下 去 ， 让 它 的 信息 增益 最 大 。 


在 一 个 连续 的 字段 上 可 以 笑 试 用 如 下 做 法 。 
先 把 这 个 字段 中 的 值 做 一 个 排序 ， 从 小 到 大 。 
年 龄 : 25 > 25 28^ 28^ 29 > 30^ 33^ 34 ^ 35 ^ 36^ 40 ` 46° 
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加 和 再 平均 ， 如 25 和 25 之 间 就 是 25，30 和 33 之 间 就 是 31.5。 要 用 与 
用 “学 历 * 字 段 分 割 类 似 的 方法 去 做 切 制 。 如 果 有 n 个 数字 ， 那 么 就 有 n- 
1 种 切 法 ， 究 竟 哪 种 好 只 能 一 个 一 个 地 试 。 但 是 也 可 以 选择 中 位 点 ， 然 
后 一 个 一 个 往 两 边 去 试 。 


如 宋 猜 测 这 个 字段 值 大 小 确实 对 最 终 决 策 有 比较 大 的 影响 ， 如 确 
实 年 龄 是 一 个 很 重要 的 问题 ， 大 于 某 个 值 号 直接 询 状 了 ， 小 于 某 个 值 
号 有 很 大 机 会 ， 那 么 从 中 位 点 往 两 边 试 ， TRAV TR (中 位 点 ) ， 


第 二 次 v-1 个 点 ， 第 三 次 v+1 个 点 ， 第 四 次 v-2 个 点 ， 第 五 次 v+2 个 点 ， 


以 此 类 礁 。 每 一 次 切割 都 会 产生 一 个 信息 精 ， 一 共 v-1 个 信息 炳 ， 当 发 
SLE— ^ m k EZAMA Im Lf Hm 15 B] fe SERERE] NIST, LAS 
找到 了 这 个 点 。 但 是 这 个 前 提 条 件 太 强 了 ， 要 求 确实 存在 一 个 分 水 岭 


式 的 分 割 点 。 


下 面 我 们 还 生 老 老 实 实 把 这 n-1 种 方式 都 计算 一 次 找到 这 个 信息 炳 


最 小 的 点 吧 。 


那 我 们 下 面 给 出 两 段 Python 代 码 来 说 明 枚 举 类 型 的 字段 的 期 望 信 
思 和 连续 类 型 的 字段 的 期 望 信息 计算 方法 。 


“< 学历" 字段 分 割 ， 代 码 如 下 ; 


# 学 历 分 类 中 大 专 、 本 科 、 硕 士 占 比 


education = (| 


2.0 / 12, 


5.0 / 12, 


5.0 / 12 


# 大 专 分 类 中 相亲 占 比 


junior college = ( 


1.0 / 2, 


1.0 / 2) 


# 本 科 分 类 中 相亲 占 比 


undergraduate = ( 


3.0 / 5, 


2.0/ 5 


# 硕 士 分 类 中 相亲 占 比 


master = ( 


4.0 / 5, 


1.0 / 5) 


# 学 历 各 分 类 中 相亲 占 比 


date per = ( 


junior college. 


undergraduate 


master) 
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def info date ( 


p): 


info += v * log ( 


return info 
HEA A BRU BS 


def infoA 0) : 


info = 0 
for i in range ( 


len ( 


education) ) : 


info += -education[i] * info_date ( 


date_per[i]) 


return info 
print infoA 0 


0.872 032 787 226 


25, 


28, 


28, 


29, 


30, 


33, 


34, 


35, 


36, 


40, 


46] 
# 是 否 相亲 


# 这 里 从 年 龄 


28、 


294 


# 左 


PEIA 


` 右 分 类 中 的 数量 占 总 数 的 


split per = ( 


4.0 / 12. 


8. 


0/ 12 


# 左 边 分 类 中 相亲 占 比 


分 比 


date left = ( 


1.0 / 2, 


1.0/2 


# 右 边 分 类 中 相亲 占 比 


date right = (| 


5.0 / 8, 


3.0 / 8) 


# 左 、 右 各 分 类 中 相亲 占 比 


date per = ( 


date left. 


date right) 
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def info_date | 


p) ; 
info = 0 
for v in p: 
info += v * log ( 
V, 
2) 


return info 
HE > BRR H FAIA 


def infoA () : 


info = 0 
for i in range ( 


len ( 


split_per) ) : 


info += -split_per[i] * info_date ( 


date_per[i]) 


return info 
print infoA 0 


0.969 622 668 617 
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几乎 是 0.97， 很 接近 1 了 ， 这 说 明 这 一 刀 切 得 很 没有 效率 ， 还 要 寻找 其 
他 切 分 位 置 。 修 改 以 下 代码 ， 束 可 以 得 到 其 他 方案 的 灶 值 。 


# 左 、 右 分 类 中 的 数量 占 总 数 的 百分比 


split per = ( 


4.0 / 12. 


8.0 / 12 


# 左 边 分 类 中 相亲 占 比 


date left = (| 


1.0 / 2, 


1.0 / 2 


# 右 边 分 类 中 相亲 占 比 


date_right = ( 


5.0 / 8, 


3.0 / 8) 


最 后 归纳 总 结 一 下 构造 整 柠 树 时 的 思路 ， 应 该 是 齐 循 下 面 这 样 的 
HIN: 


Bo, ERT RIF RAMII V ? 


第 三 步 ， 把 字段 A 从 所 有 待 选 的 字段 列表 中 拿 走 ， 再 从 第 一 步 开 
9 找 。 注 意 这 时 相当 于 决策 已 经 走 了 一 步 了 ， 如 末 在 根 证 点 上 已 经 分 
裂 成 两 个 分 文 ， 那 么 每 一 个 分 文 各 目 又 形成 一 个 完整 的 决策 树 的 选择 
过 程 ， 注 意 不 同 点 。 不 同 的 是 :可 选 的 字段 不 一 样 了 ， 因 为 A 字段 被 
Adr: 此外， 在 这 个 分 文 上 的 样本 也 比 原来 少 了 ， 因 为 两 个 分 文 分 
割 了 整个 样本 ， 使 得 一 个 部 分 分 文 只 拥有 样本 的 一 部 分 。 


这 个 过 程 只 是 看 上 去 比较 吗 嗪 而 已 ， 用 程序 套 算 时 还 是 比 较 快 
的 。 缺 点 是 这 个 归纳 出 来 的 树 可 能 会 非 党 复杂， 分 文 和 层次 极 多 ， 这 
样 在 可 视 化 上 也 有 问题 ， 在 实际 用 新 样本 来 做 分 类 时 也 会 感觉 操作 厅 
烦 。 


还 可 以 用 “ 减 梳 法 ”进行 树 的 修 效 ， 有 “前 减 校 >? 和 “后 豆 术 ”两 种 方 
法 。“ 前 盈 梳 ”就 十 提前 终止 树 的 构造 ， 如 只 用 了 2 个 字段 ， 两 层 树 就 已 
经 构造 完整 个 树 了 ， 保 持 了 树 的 精简 性 。“ 后 剪 校 ” 束 是 等 树 完 全 构造 
完 ， 如 建 模 一 共 使 用 7 个 字段 ， 全 都 用 上 ， 这 样 就 形成 了 一 个 7 层 的 


树 ， 如 采 一 个 分 文 下 分 类 已 经 比较 “纯粹 >” 了， 束 没 必要 再 通过 其 他 条 
件 分 支 来 进行 细 化 ， 那 么 整个 枝 可 以 直接 减 挥 变 成 一 个 叶 。 
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妥协 ， 这 种 思路 几乎 贯穿 所 有 的 分 类 算法 的 始终 。 在 第 8 章 中 介绍 过 过 
拟 和 从 拟 的 问题 ， 过 拟 的 诱因 之 一 是 更 重视 精度 的 思路 ， 欠 拟 的 诱因 
之 一 是 更 重视 简洁 度 的 思路 。 因 此 ， 不 能 武断 地 说 过 拟 不 好 或 者 欠 拟 
不 好 ， 而 是 要 在 方案 的 收益 和 成 本 之 间 做 一 个 权衡 。 这 一 点 在 具体 方 
案 落 地 的 时 候 很 重要 。 


10.3 ”随机 森林 


随机 和 森林 算法 是 一 种 并 行 性 比较 好 的 算法 规则 ， 一 再 强调 的 是 ， 
在 数据 控 据 中 的 很 多 算法 实际 是 一 种 问题 处 理 方式 或 者 原则 ， 而 不 是 
针对 某 一 个 具体 的 问题 所 书写 的 代码 。 这 本 里 也 是 一 个 哲学 上 的 矛 
盾 ， 针 对 性 越 强 ， 深 度 越 大 ， 适 应 度 越 窄 ， 而 反 过 来 ， 针 对 性 约 弱 ， 
深度 越 小 ， 适 应 度 就 越 宫 。 在 学 习 数 据 挖 据 诸 多 算法 时 应 该 还 是 更 多 
注重 这 些 适 应 度 较 宽 的 算法 思路 。 


看 到 “和 森林 ”这 个 词 ， 很 容易 联想 到 前 一 世人 介绍 的 决策 树 ， 很 多 很 
多 树 就 可 以 构成 木林。 确实 ， 和 前 面 的 决策 树 归纳 的 过 程 类 似 ， 随 机 
森林 是 一 个 构造 决 岳 树 的 过 程 ， 只 是 它 不 古 要 构造 一 棵 树 ， 而 十 构造 
许多 棵 树 。 


在 决策 树 的 构造 中 会 遇 到 过 拟 和 从 拟 的 问题 ， 在 随机 森林 算法 
+, TEE Exe SIE KRAUS, TO, AA 
FEAR FI BI tel Ved PUTT AT RK o 


步 又 和 原则 如 下 。 
(1) 随机 挑选 一 个 字段 构造 树 的 第 一 层 。 


(2) 随机 挑选 一 个 字段 构造 树 的 第 二 层 。 


(3) 随机 挑选 一 个 字段 构造 树 的 第 n 层 。 


(4) 在 本 棵 树 建 造 完毕 后 ， 还 需要 照 这 种 方式 建造 m 棵 决策 树 。 


补充 原则 如 下 。 


(1) 树 的 层级 通常 比较 浅 。 


(2) 每 棵 树 的 分 类 都 不 能 保证 分 类 精度 很 高 。 


(3) 一 个 样本 进行 分 类 时 同时 对 这 m 棵 决策 树 做 分 类 概率 判断 。 


人 们 会 为 一 个 训练 集 构造 奋 干 棵 决策 树 ， 通 党 可 能 是 儿 十 甚至 上 
百 柠 ， 具 体会 根据 样本 属性 的 数量 和 杂乱 程度 来 决定 。 当 有 新 样 本 需 
要 进行 分 类 时 ， 同 时 把 这 个 样本 给 这 几 标 树 ， 然 后 用 类 似 民 主 投票 表 
决 的 方式 来 决定 新 样本 应 该 归属 于 哪 类 ， 哪 一 类 “得 桶 多 ”就 归 为 哪 一 
类 。 


下 面 把 上 述 例子 用 随机 和 森林 的 方式 来 实现 ， 代 码 如 下 : 


from sklearn.ensemble import RandomForestClassifier 
# 学 历 


2: 硕士 


1. 本 科 


# ! 年 齿 


"年 收入 


179, 


15, 


9]. 


[33. 


190, 


19, 


9]. 


[28. 


180, 


18, 


2]. 


[25. 


178. 


18, 


2]. 


[46. 


100, 


100, 


2]. 


[40. 


170. 


170, 


1]. 


[34. 


174. 


20, 


2]. 


[36. 


181. 


55, 


1]. 


[35. 


170. 


25, 


2]. 


[30. 


180. 


35, 


1]. 


[28. 


174. 


30, 


1]. 


[29. 


176. 


36, 


1]. 


HAG 


<< 


[0. 


1] 
# 现 在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 


clf = RandomForestClassifier () 


.fit ( 


# 预 测 下 面 此 人 是 否 相 亲 


p = [[28. 


180, 


18, 


2]] 
clf.predict | 


# 输 出 结果 是 


[1] 是 


这 里 验证 用 的 是 训练 样本 中 的 第 3 个 [28，180，18，2]， 而 第 3 个 
样本 也 确实 十 相 亲 的 对 象 ， 验 证 成 功 。 同 样 可 以 用 更 多 的 样本 来 进行 
训练 ， 这 样 的 预测 结果 会 更 加 准确 。 


10.4。 隐 马尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 最 初 由 L.E.Baum 
发 表 在 20 世 纪 70 年 代 一 系列 的 统计 学 论文 中 ， 随 后 在 语言 识别 、 目 然 
语言 处 理 以 及 生物 信息 等 领域 体现 了 很 大 的 价值 。 


还 有 一 个 概念 叫做 “马尔 可 夫 链 ”也 有 写成 马尔 科 夫 链 或 者 马尔 
科 夫 模型 的 ) 。 这 两 者 有 什么 关系 呢 ? 马尔 可 夫 链 是 一 个 数学 概念 ， 

因为 它 由 俄罗斯 物理 学 家 兼 数学 家 安 德 烈 -马尔 可 夫 (A.A.Markov) fe 
出 而 得 名 。 马 尔 可 夫 链 的 核心 是 ， 在 给 定 当前 知识 或 信息 的 情况 下 ， 

观察 对 象 过 去 的 历史 状态 对 于 预测 将 来 是 无 天 的 。 也 可 以 说 ， 在 观察 
一 个 系统 变化 的 时 候 ， 它 下 一 个 状态 〈 第 n+1 个 状态 ) 如 何 的 概率 只 需 
要 观察 和 统计 当前 状态 《第 n 个 状态 ) 即 可 以 正确 得 出 。 男 外 ， 在 一 些 
资料 上 会 看 到 贝 叶 斯 信念 网 络 的 分 类 模型 概念 。 隐 马尔 可 夫 链 和 贝 叶 
斯 信念 网 络 的 模型 思维 方式 有 些 接近 ， 区 别 在 于 ， 隐 马尔 可 夫 链 的 模 
型 更 为 简化 ， 或 者 可 以 认为 隐 马 尔 可 夫 链 就 是 贝 叶 斯 信念 网 络 的 一 种 
特例 。 而 且 隐 马尔 可 夫 链 是 一 个 双重 的 随机 过 程 ， 不 仅 状态 转移 之 间 
是 一 个 随机 事件 ， 状 态 和 输出 之 间 也 是 一 个 随机 过 程 ， 如 图 10-5 所 示 。 


> 状态 转移 | 观察 值 输出 
图 10-5 ” 隐 马 尔 可 夫 链 示意 图 


在 一 个 完整 的 观察 过 程 中 有 一 些 状 态 的 转换 ， 即 图 10-5 中 用 虚线 图 
表示 的 Xi 到 Xr。 在 观察 中 Xi 到 Xr 的 状态 存在 一 个 客观 的 转化 规律 ， 
但 是 没 办 法 直接 观测 到 ， 观 测 到 的 是 每 个 X 状 态 下 的 输出 D0， 即 Di 到 
Ot。 和 需要 通过 O1 到 Or 这 些 输出 值 来 进行 模型 建立 和 计算 状态 转移 的 


为 了 比较 容易 理解 整个 过 程 ， 下 面 举 一 个 很 有 趣 的 例子 站。 
(UAT AAI ATER A ° 


TB—^ BENE (PRIX FADO) ，6 个 面 ， 每 个 面 
(1, 2, 3, 4, 5, 6) 出 现 的 概率 是 1/6。 


BO MATE SOA 〈 称 这 个 仍 子 为 D4) ， 每 个 面 (1，2， 
3, 4) 出 现 的 概率 是 1/4。 


BITRE MA BUX MET ADS) , BSA (1, 2, 3, 4, 
5, 6, 7, 8) 出 现 的 概率 是 1/8。 


当然 用 其 他 点 数 的 角子 原理 是 一 样 的 。3 种 角子 和 毛 散 子 可 能 产生 
的 结 采 如 图 10-6 所 示 。 


D4 D8 


n 一 一 一 


图 10-6 3fTHB-T DP BT Ber ERZE 


ABS DB MEF, ABABA ESPRIT T ECE, Fido PT 
WE MAS ° SEM TCT BET, PESIRE— ECT BTE E13 © 
SRG, EI-MS, 1+ 2>3>4>5>6>7>8RN —A o f 
停 地 重复 上 述 过 程 ， 会 得 到 一 串 数 字 ， 每 个 数字 都 是 1、2、3、4、5、 
6»7*8 中 有 的 一 个 % 


例如 ， 可 能 得 到 这 么 一 串 数 字 PRTA) : 1、6、3、5、2、 
7、`3、5、2、4， 这 串 数 字 叫 做 可 见 状态 链 ， 也 束 是 记录 的 这 组 数字 ， 


也 是 前 面 介 绍 的 O,。 但 是 在 隐 马 尔 可 夫 模 型 中 ， 不 仅仅 有 这 么 一 串 可 
见 状态 链 ， 还 有 一 串 隐 含 状态 链 。 在 这 个 例子 里 ， 这 串 隐 含 状态 链 就 
是 选 出 的 角子 的 序列 。 例 如 ， 隐 舍 状 态 链 有 可 能 是 D6、D8、D8、 
D6、D4、D8、D6、D6、D4、D8， 如 图 10-7 所 示 。 如 果 继 续 选 取 和 投 
掷 还 能 得 到 这 个 状态 链 上 更 多 的 和 点。 一 般 来 说 ，HMM 中 的 马尔 可 夫 

链 其 实 是 指 隐 含 状态 链 ， 因 为 实际 是 隐 含 状态 ERT) 之 间 存 
在 转换 概率 (Transition Probability) ， 如 图 10-8 所 示 。 


Traacammmm. 


图 例 说 明 : 
一 个 隐 含 状态 一 > 从 一 个 隐 含 状态 到 下 一 个 隐 含 状态 的 转换 
© -MIRRA Y 从 一 个 隐 含 状态 到 一 个 可 见 状态 的 输出 


图 10-7 隐 马 尔 可 夫 模 型 示意 图 


在 这 个 例子 中 ，D6 的 下 一 个 状态 是 D4、D6、D8 的 概率 都 是 1/3。 
D4、D8 的 下 一 个 状态 是 D4、D6、D8 的 转换 概率 也 都 一 样 是 /3， 虽 然 
在 示例 中 没有 画 出 所 有 的 情况 ， 但 是 从 古典 概 型 的 角度 来 分 析 ， 应 该 
是 这 样 的 ， 而 实际 上 也 可 以 从 大 量 的 掷 山 子 实验 中 得 到 这 样 的 转换 概 
率 的 统计 结果 。 这 样 设 定 是 为 了 最 开始 容易 说 清楚 ， 其 实 是 可 以 随意 
设 定 转换 概率 的 。 例 如 ， 可 以 这 样 定 义 ，D6 后 面 不 能 接 D4，D6 后 面 是 
D6 的 概率 是 0.9， 是 D8 的 概率 是 0.1。 也 可 以 假设 人 子 不 是 3 个 ， 而 是 有 


10 个 ， 其 中 D4 有 2 个 ，D6 有 9 个 ，D8 有 1 个 ， 等 等 。 这 样 就 是 一 个 新 的 
HMM， 因 为 转换 概率 肯定 是 与 当前 的 例子 不 同 的 。 而 同样 的 ， 尽 管 可 
见 状态 之 间 没 有 直接 的 转换 概率 ， 但 是 隐 舍 状态 和 可 见 状态 之 间 有 一 
个 概率 叫做 输出 概率 (Emission Probability) 


/ 
e 


110-8 隐 含 状态 转换 关系 示意 图 


BLAIR, TNA (D6) 产生 1 的 输出 概率 是 6。 产生 2、 
3、4、5、6 的 概率 也 都 是 V6。 同样 可 以 对 输出 概率 进行 其 他 定义 。 例 
Al, — T REA it FN, ROR AE LAS EK, XE 
1/2, PBHSRE2>3>4>5 > GAYE E1/10 © 


其 实 对 于 HMM 来 说 ， 如 果 提 前 知道 所 有 隐 售 状态 之 间 的 转换 概率 
和 所 有 隐 舍 状态 到 所 有 可 见 状 态 之 间 的 输出 概率 ， 进 行 模拟 是 相当 容 
易 的 。 但 是 应 用 HMM 模 型 时 ， 往 往 缺 失 一 部 分 信息 ， 有 时 候 知道 奶子 
AJLA, FIRT ETA, BEDER KRK RTFI; ARR 
EAT TIRE UA ZR AR, 38 PEST eR AI ^. QO FR AS 


去 估计 这 些 缺 失 的 信息 ， 束 成 了 一 个 很 重要 的 问题 。 这 些 算法 将 会 在 


后 续 章 下 详细 介绍 。 
和 HMM 模 型 相关 的 算法 主要 分 为 3 类 ， 分 别 解决 3 种 问题 。 


问题 1 AERP ALA 〈 隐 含 状态 数量 ) 、 每 种 山子 是 什么 ( 转 
换 概率 ) > DEED ea (可 见 状态 链 ) ， 想 知道 每 次 丘 出 
来 的 都 是 哪 种 角子 〈 隐 含 状态 链 ) 。 


这 个 问题 在 语音 识别 领域 叫做 解码 问题 。 这 个 问题 其 实 有 两 种 解 
法 ， 会 给 出 两 个 不 同 的 答案 。 每 个 答案 都 正确 ， 只 有 是 这 些 答 案 的 意义 
不 一 样 。 第 一 种 解法 求 最 大 似 然 状 态 路 径 ， 通 俗 地 说 ， 束 是 求 一 吝 贫 
子 序列 ， 这 串 仍 子 序 列 产生 观测 结果 的 概率 最 大 。 第 二 种 解法 不 是 求 
一 组 货 子 序列 ， 而 是 求 每 次 掷 出 的 仍 子 分 别 是 某 种 人 般 子 的 概率 。 


例如 ， 看 到 结果 后 ， 可 以 求 得 第 一 次 所 角子 是 D4 的 概率 是 0.5，D6 
的 概率 是 0.3，D8 的 概率 是 0.2。 


问题 2， AERP ALA 〈 隐 含 状态 数量 ) 、 每 种 山子 是 什么 ( 转 
换 概率 ) 、 根 据 掷 人 般 子 掷 出 的 结果 《可见 状 态 链 ) ， 想 知道 掷 出 这 个 
结 采 的 概率 。 


这 个 问题 看 似 意 义 不 大 ， 因 为 掷 出 来 的 结果 很 多 时 候 都 对 应 了 一 
个 比较 大 的 概率 。 这 个 问题 的 目的 其 实 是 检测 观察 到 的 结果 和 已 知 的 


模型 是 否 吻 合 。 如 果 很 多 次 结果 都 对 应 了 比较 小 的 概率 ， 那 么 就 说 明 
已 知 的 模型 很 有 可 能 是 错 的 ， 有 人 偷偷 把 货 子 换 了 。 


问题 3: AERP ALA (RAAB), TRADÉSERPIBCT ET 

A (FS), MMU BIR ERE SRR 〈 可 见 状态 链 ) ， 想 反 

推出 每 种 角子 古 什 么 (转换 概率 ) 。 这 个 问题 很 重要 ， 因 为 这 是 最 第 

见 的 情况 。 很 多 时 候 只 有 可 见 结果 ， 不 知道 HMM 模 型 中 的 参数 ， 需 要 
从 可 见 结果 估计 出 这 些 参数 ， 这 有 是 建 模 的 一 个 必要 步骤 。 


[1] 该 例子 来 源 于 知 平 ， 作 者 : Yang Eninda ， 链 接 : 
http://www.zhihu.com/question/20962240/answer/33438846 ， 有 部 分 删 
改 。 


10.4.1 维特 比 算法 


接 者 上 述 例子 说 问题 1， 解 最 大 似 然 路 径 问 题 。 


AS PALF: IBS ^ PUTES ^ VIE o TA T LOR AY SE 
(1、6、3、5、2、7、3、5、2、4) ， 但 是 不 知道 每 次 用 了 哪 种 般 
子 ， 而 想 知道 最 有 可 能 的 货 子 序列 。 其 实 最 简单 的 方法 就 是 穷 举 所 有 
可 能 的 骨 子 序列 ， 然 后 根据 古典 概 型 的 分 布 特点 来 计算 每 个 序列 对 应 
的 概率 ， 再 从 中 把 对 应 最 大 概率 的 序列 挑 出 来 。 如 果 马 尔 可 夫 链 不 
长 ， 这 种 方法 是 可 行 的 。 如 果 马 尔 可 夫 链 长 ， 穷 举 的 数量 太 大 ， 束 很 
难 完成 了 。 另 外 一 种 很 有 名 的 算法 叫做 维特 比 算法 (Viterbi 
algorithm) 。 要 理解 这 个 算法 ， 先 看 几 个 简单 的 例子 。 


Bt, WMRAA— RRS, 8DÉMO-9Brn ° 


AERA, OT AER ARR ETP iE D4, RAAD ELA 
7e1/4, mij 1/6401/8 ° FEI MALI, BARA, 40A10-10PF 


zs. 


m 
Q 
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结 采 分 别 为 1、6。 这 时 问题 变 得 复杂 起 来 ， 要 计算 3 个 值 ， 分 另 
第 二 个 货 子 是 D6、D4、D8 的 最 大 概率 。 显 然 ， 要 取 到 最 大 概率 ， 第 一 
个 人 般 子 必 须 为 D4。 这 时 ， 第 二 个 仍 子 取 到 D6 的 最 大 概率 如 下 : 


P2(D6) = P(D4)* P(1| D4) * P(D6| D4) * P(6| D6) 


` 


ES: 


上 面 等 式 右 侧 表示 的 是 第 一 个 骨 子 选 到 D4 的 概率 (1/3) RAE 
到 D4 的 情况 下 掷 出 1 点 的 概率 (1/4) , P (D6|D4) 是 指 第 一 个 山子 ; 
到 D4 的 情况 下 第 二 个 角子 选 到 D6 的 概率 (1/3) ， 最 后 一 项 是 指 第 二 个 
骨 子 选 到 D6 的 情况 下 折 出 6 点 的 概率 (1/6) 。 


5 


Af 


同样 的 ， 可 以 计算 第 二 个 角子 是 D4 或 D8 时 的 最 大 概率 。 发 现 ， 第 
二 个 角子 取 到 D6 的 概率 最 大 。 而 使 这 个 概率 最 大 时 ， 第 一 个 角子 为 
D4。 所 以 最 大 概率 骨 子 序列 就 是 D4、D6。 继 续 拓 展 ， 毛 3 次 般 子 ， 如 


图 10-11 所 示 。 


dnd 
© © 
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A, YFERSS — CT 2 38|4ED6 ^ DA ^ DENRA o BRÁUS. 
Hu, BERBER AEA, ORF DADO ° XI, AHS RU 
D4 的 最 大 概率 如 下 : 


P3(D4) = P2(D6)* P(D4|D6)* P(3 | D4) 


AIVE BCT TH ERAT EE, DY DT = MR E 
D6EEKDBAT HAAS > URM, B= PAF LEIDAN BK 9 M 
使 这 个 概率 最 大 时 ， 第 二 个 角子 为 D6， 第 一 个 角子 为 D4。 所 以 最 大 概 
28H FAP BizeD4 ` D6 > D4 ° 既然 毛 骨 子 1 到 3 次 可 以 算 ， 撕 多 少 次 都 
可 以 ， 以 此 类 推 。 


BY LA ACH, BER EAS BCH PST BCR TL LP ST o 


首先 ， 不 管 序列 多 长 ， 要 从 序列 长 度 为 1 算 起 ， 算 序列 长 度 为 1 时 
取 到 每 个 仍 子 的 最 大 概率 。 然 后 ， 逐 渐 增 加 长 度 ， 每 增加 一 次 长 度 ， 
重新 算 一 亿 在 这 个 长 度 下 最 后 一 个 位 置 取 到 每 个 角子 的 最 大 概率 。 因 


FI E—TKBE BEE PF RAR BLT, BT RSA 
XE » SRB Ra [BB]. BALERS We MRT HR EK D 
PRIS, BEAL DI SRLS IP a GEB TE Ro Le TE 
BA EASY Bl PRR Ho BY SE EE I o 


维特 比 算法 的 提出 者 叫 安德鲁 -维特 比 ， 美 籍 犹太 人 ， 高 通 首席 科 
学 家 ， 同 时 也 是 高 通 公 司 创始 人 之 一 。 维 特 比 算法 的 目的 也 比较 单 
纯 ， 即 找 出 可 能 性 最 大 的 隐藏 序列 。 


这 种 算法 研究 是 一 种 链 的 可 能 性 问题 。 现 在 应 用 最 广 的 领域 是 
CDMA 通 信 以 及 打字 提示 功能 。 


通信 系统 是 一 个 非 营 复杂 的 系统 ， 不 管 是 人 们 用 的 手机 的 通信 ， 
还 十 家 里 无 线路 由 右 的 WiFi 通 信 ， 还 是 光纤 里 的 光波 通信 ， 涉 太一 系 
列 的 问题 。 例 如 ， 在 进行 语音 通话 时 要 把 声音 信号 的 模拟 信号 进行 抽 
样 ， 再 用 传 里 叶 变 换 变 成 余弦 波 组 成 的 频 域 信号 ， 表 把 频 域 信号 进行 
数字 化 传输 ， 再 用 传 里 时 逆 变 换 变 回 时 域 信号 ， 再 由 模拟 放大 电路 变 
成 声音 信号 放出 来 。 而 在 一 个 小 区 域 里 大 量 的 人 都 用 的 是 一 个 手机 基 
站 ， 会 不 会 出 现 把 基站 挤 满 了 没 办 法 打 电 话 的 情况 呢 ? 


相信 大 家 都 有 体会 ， 在 没有 微 信 的 时 候 ， 手 机 基站 最 忙 的 时 候 束 
古 除夕 钟 声 融 啊 的 前 后 了 。 打 电话 打 不 出 去 ， 别 人 也 打 不 进来 ， 短 信 
发 起 来 也 是 很 困难 ， 因 为 市 宽 被 接 通 的 这 些 电话 占 满 了 。 每 一 台 手 机 


和 基站 之 间 通 话 都 是 要 占用 通信 市 宽 的 ， 市 宽 有 限 ， 所 以 在 手机 通话 
负 符 已 经 超过 手机 基站 的 情况 下 ， 基 站 区 没 办 法 分 配 足 够 的 频带 CH 
W) 给 新 接 入 的 手机 用 了 ， 电 话 自然 打 不 出 去 也 打 不 进来 。 对 于 基站 
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机 都 要 正常 通话 一 般 有 以 下 两 种 办 法 。 


(1) 每 个 人 用 不 同 的 频段 。 每 个 手机 各 用 各 的 频率 ， 当 然 就 不 会 
干扰 了 。 


(2) 大 家 轮流 “说 话 ”。 把 时 间 打 碎 ， 如 一 秒 钟 分 成 几 十 个 小 段 ， 
每 个 手机 被 分 配 只 在 这 个 小 段 和 基站 用 某 个 频率 通信 ， 下 次 通信 就 得 
到 下 一 秒 去 。 这 样 所 有 的 手机 虽然 用 的 是 同一 个 频率 ， 但 是 大 家 “说 
话 ” 都 很 紧 崇 ，1 秒 钟 收集 到 的 信息 压缩 在 几 十 分 之 一 秒 发 过 去 。 时 间 
上 错开 ， 也 不 会 有 问题 


当然 ， 还 有 一 种 方法 束 是 两 种 方案 宴 咨 ， 即 分 配 不 同 的 频段 ， 又 
分 配 不 同 的 时 间 。 这 样 一 个 基站 殉 能 容纳 几 百 个 人 同时 使 用 了 。 


还 有 一 种 看 上 去 非常 高 级 的 协议 ， 叫 做 CDMA 协 议 (Code Division 
Multiple Access) ， 中 文 译作 码 分 多 址 协议 ， 国 内 目前 用 的 3G 或 者 4G 
都 是 CDMA 协 议 族 里 的 通信 协议 。 


皇 么 理解 这 种 协议 呢 ? TERR BP, RE AE ET BT 
AMR? 即 大 家 都 在 用 3000~4000Hz 的 频率 一 一 常人 耳 打 能 识别 的 语音 


频率 来 进行 对 话 。 大 家 部 近 距 离 小 声 说 话 ， 基 本 上 还 没 问题 。 这 属于 
多 个 点 对 点 的 对 话 ， 其 他 人 之 间 对 话 的 声音 传 过 来 就 非常 小 了 ， 基 本 
` 会 干扰 到 和 谈话 对 象 之 间 的 会 话 一 一 从 前 面 提 到 过 的 香农 公式 来 说 
这 属于 信 品 比比 较 大 的 时 候 。 如 果 大 家 说 话 时 声音 都 比较 大 ， 那 束 显 
得 非常 嗜 杂 ， 如 有 果 噪 声 压 过 了 正常 交谈 的 声音 再 想 要 跟 谈话 对 象 说 清 
楚 束 需要 离 得 近 一 些 ， 声 首 大 一 些 ， 这 就 是 加 大 信号 功率 ， 还 是 加 大 


信 品 比 的 方案 。 


CDMA 是 一 种 与 这 种 处 理 思路 不 同 的 方式 ， 它 相当 于 在 整个 房间 
里 强迫 每 一 对 谈话 者 都 用 一 种 与 其 他 谈话 的 人 不 一 样 的 语言 。 如 甲乙 
两 个 人 用 英语 ， 两 丁 两 个 人 用 中 文 ， 友 己 两 个 人 用 韩国 语 ， 等 等 。 最 
后 整个 房间 里 虽然 昕 起 来 还 是 会 比较 嘲 杂 ， 但 是 每 个 对 话 着 经 历 的 是 
一 种 什么 现象 呢 ? 如 甲 会 在 乱 喻 喻 的 背景 品 首 里 ， 听 到 有 一 个 乙 在 讲 
英语 ， 乙 也 是 同样 的 感觉 一 一 他 会 听 到 在 嘲 杂 的 噪声 里 有 一 个 甲 在 讲 
英语 。 其 他 每 一 组 对 话 的 对 象 都 会 有 类 似 的 感觉 ， 即 能 听 到 杂乱 的 表 
景 噪声 里 有 一 个 人 在 讲 目 己 能 听 慌 的 语言 一 一 只 要 这 种 噪声 不 要 大 到 
完全 听 不 到 谈话 对 象 在 说 什么 即 可 。 每 对 人 物 对 话 的 过 程 却 是 听 到 了 
很 多 的 声音 ， 但 是 根据 上 下 文 关系 是 能 够 从 众多 的 声音 中 滤 出 那些 和 
目 己 语言 一 致 的 声音 ， 甚 至 在 语言 种 类 一 致 的 情况 下 能 够 滤 出 和 目 己 
对 话 内 容 一 致 的 声音 。 这 基本 就 是 CDMA 技 术 最 为 通俗 的 解释 了 ， 整 
个 方案 吏 是 基站 ， 不 同 的 手机 束 是 里 面 每 个 人 ， 唯 一 不 同 的 一 点 征 ， 
基站 本 身 会 说 N 种 语言 ， 它 每 次 和 一 台 手 机 开局 一 个 会 话 都 会 指定 让 这 


次 会 话 使 用 某 种 语言 而 且 和 其 他 手机 不 同 ， 虽然 频段 和 时 间 上 不 做 区 
分 但 是 手机 和 基站 的 通信 在 各 目的 “语言 "下 并 行 不 悖 。 


人 类 为 什么 会 具有 这 样 一 种 能 力 ， 其 实 是 根据 这 些 语音 各 目 具备 
一 定 的 特性 和 上 下 文 天 系 ， 所 以 人 们 轻易 能 够 从 噪声 中 提取 到 能 理解 
的 信息 ， 而 忽略 那些 认为 不 是 信息 的 内 容 。 


维特 比 算法 整体 的 思路 就 是 在 寻找 收 到 的 上 一 段 信息 和 它 后 面 眼 
随 的 下 一 段 信息 的 转移 概率 问题 在 这 段 信息 后 最 可 能 出 现 的 是 哪 
些 前 置 内 容 。 


再 来 看 一 个 和 生活 更 贴近 的 例子 一 一 打字 软件 猜测 输入 内 容 对 应 
文字 ， 如 图 10-12 所 示 。 


| jin| Q pagnes) e 


| 工 近 2 25 4 金 5 jinx OR 7. 进 RE 9.39 OD i | 
jin'tian Q ms S 
LOA 22H 3.& X 4 W&EH SHR 6.3 AT 8. $ 9. E 
jin'tian'wo'men'ying'gai'zuo'xie'shen'me| Q 18:303) 
1 今天 找 们 应 该 做 些 什 么 2 2. 今 天 我 们 应 该 3: 今天 我 们 4 今天 找 5 今天 6 金田 7. 金 天 8. 锦 田 0.093 


图 10-12 打字 软件 猜测 输入 内 容 对 应 文字 
在 Windows 中 能 够 使 用 的 输入 法 有 很 多 种 ， 有 全 拼 ， 即 要 把 拼音 输 
ASH; AGH, BPS, AAS FERRET TSH, SEZ 
字 型 ， 即 用 一 个 字符 代表 一 个 侦 旁 ;等 等 ， 但 是 猜测 输入 文字 时 ， 原 


理 夸 不 多 。 以 全 拼 为 例 ， 在 使 用 输入 法 时 ， 输 入 的 是 英文 了 字母。 在 这 
个 应 用 中 ， 隐 藏 的 序列 是 真实 要 输入 的 中 文字 符 和 词汇 ， 显 示 的 部 分 
征 输 入 的 英文 字符 。 


在 输入 jin 时 ， 输 入 法 软件 会 猜测 想 要 输入 “E”、“ 厂 ”、“ 今 ”等 。 而 
这 种 排序 不 是 瞎 猜 的 ， 通 常 古 根据 统计 而 来 。 也 就 是 
说 E>、“ 斤 ”、“ 今 ”这 样 的 顺序 一 般 是 根据 使 用 人 的 输入 习惯 形成 的 
一 一 在 平时 打字 聊天 的 过 程 中 * 近 ?出 现在 词汇 或 句子 (如 果 输 入 法 知 
道 这 个 是 句子 开始 ) 输入 开始 的 概率 大 于 “ 厂 ”， 而 “ 厂 ” 大 于 “ 今 ”。 在 使 
用 输入 法 时 也 能 感觉 到 ， 一 个 字 如 果 被 输入 一 次 ， 下 一 次 再 输入 的 时 
候 排 名 可 能 束 比 原来 匪 前 很 多 ， 尤 其 是 那些 比较 冷 僻 的 字 排 名 变化 尤 
其 明显 。 


但 是 又 输入 了 tian 时 就 不 一 样 了 。“ 今 天 ”作为 一 个 词汇 ， 比 其 他 任 
何 一 个 被 拼 作 jintian 的 词汇 都 使 用 得 更 为 高 频 。 也 可 以 理解 为 ， 当 输入 
tian 时 ， 由 jin 〈 今 ) 到 tian (K) 这 条 路 径 的 概率 是 最 高 的 ， 这 是 把 “ 今 


天 ”这 个 词汇 放 在 第 一 个 的 原因 。 


后 面 输入 了 几 个 其 他 的 完整 词汇 : "PRI" ^ "SD S peo S p 
么 ”， 输 入 法 也 会 继续 对 这 些 词汇 在 句子 中 的 路 径 概率 进行 计算 ， 每 次 
输入 都 会 猜测 一 次 到 目前 的 输入 状态 为 止 最 有 可 能 的 那 条 路 径 ， 那 么 
看 到 的 这 个 第 一 顺 位 的 词汇 ， 准 确 说 是 一 个 句子 一 一 “今天 我 们 应 该 做 


些 什么 ?就 是 猜测 到 的 最 优 的 结果 ， 它 比 其 他 任何 一 种 路 径 产生 的 概率 
都 要 高 。 


上 述 内 容 是 一 个 在 没有 看 该 输入 的 源 代 码 的 情况 下 做 的 一 个 猜 
测 ， 只 是 说 这 样 做 是 可 以 的 ， 具 体操 作 起 来 还 是 会 比较 复杂 ， 还 有 很 
多 其 他 的 因素 应 该 考虑 进去 。 如 这 个 马尔 可 夫 模 型 的 训练 〈 拼 音 串 的 
输入 与 最 终 产生 的 汉字 串 的 输出 ) 是 应 该 来 源 于 本 地 的 输入 者 的 习惯 
呢 ， 还 是 应 该 来 源 于 更 加 有 代表 性 的 互联 网 呢 ， 还 是 两 者 结合 ， 如 果 
结合 又 是 怎么 一 种 策略 来 调解 其 中 矛盾 的 部 分 呢 ? 这 些 都 是 值得 探讨 
的 问题 。 


下 面 模拟 输入 法 的 猜测 方法 给 出 一 个 算法 示例 ， 先 给 出 各 级 转移 
矩阵， 如 表 10-4~ 表 10-7 所 示 。 


表 10-4 “ 详 概 率 和 矩阵 


表 10-5 jin-tian#2 64 FALE 


yt i: 0.001 0.001 


[e 


我 0.400 
窝 0.150 
Me 0.090 
握 0.050 
fi) 0.030 


3€10-7 wo-men 转 移 和 矩阵 


n 
fi — 


简单 做 一 下 说 明 ， 输 出 一 个 完整 拼音 后 ， 用 户 就 会 按 空格 或 者 数 
字 把 输入 备 选 框 中 的 汉字 输出 ， 当 单字 词 输出 时 就 会 由 统计 产生 “jin 输 


入 概率 矩阵 ”和 “wo 概率 矩阵 ”这样 的 统计 结果 ， 这 个 计算 比较 简单 ， 计 
算 次 数 即 可 。 下 次 再 度 输入 单字 词 拼音 束 会 根据 输入 概率 矩阵 进行 排 
序 ， 概 率 大 的 单字 词 会 列 在 前 面 。 


而 当 用 户 输出 的 是 一 个 “ 双 字 词 * 时 就 会 由 统计 产生 “jin-tian 转 移 矩 
阵 ” 和 “wo-men 转 移 矩 阵 ” 这 样 的 统计 结果 ， 同 样 是 用 计数 的 统计 方法 即 
可 。 而 且 每 个 双 字 词 、 三 字 词 等 的 输入 统计 都 用 这 种 方法 。 在 输入 双 
字 词 汉字 拼音 时 会 根据 转移 概率 表 进 行 计 算 。 多 个 词 相连 就 是 多 个 转 
移 和 矩阵 的 概率 相 乘 计算 ， 从 而 得 到 概率 最 大 的 输入 可 能 项 。 


在 实际 应 用 的 过 程 中 ， 这 个 概率 矩阵 会 是 一 个 系数 矩阵 ， 在 磁盘 
或 者 内 存 上 肯定 不 会 像 这 4 个 表格 这 样 直接 列 成 一 个 方 阵 来 存储 的 。 而 
且 转 移 概 率 足 够 小 ， 如 小 于 0.001 时 可 以 认为 是 输入 统计 中 的 噪声 点 ， 
不 进行 词汇 输入 推荐 ， 这 样 输入 备 选 框 的 前 面 也 只 会 出 现 高 频 输 入 词 
汇 ， 这 样 备 选 框 比较 简洁 。 


代码 如 下 : 


# coding=utf-8 
import numpy as np 
jin = [' 近 


E 
jin per - [0.3 


9.03] 
jintian = [' 天 


"38 


'] 
jintian_per = [ 
[0.001, 


0.001, 


0.001, 


0.001, 


0.001]. 


[0. 001, 


0.001, 


0.001, 


0.001, 


0.001]. 


[0. 990, 


0.001, 


0.001, 


0.001, 


0.001]. 


[0. 002, 


0.001, 


0.850, 


0.001, 


0.001]. 


[0. 001, 


0.001, 


0.001, 


0.001, 


! ja 


"Eh 


'd 
wo per = [0.400, 


0.150, 


0.090, 


0.050, 


0.030] 
women = ['{] 


"i 


'#] 


"d 
women per - [ 
[0.970. 


0.001 


0.003, 


0.001 


0.001]. 


[0. 001. 


0.001 


0.001, 


0.001, 


0.001]. 


[0. 001, 


0.001, 


0.001, 


0.001, 


0.001]. 


[0. 001. 


0.001, 


0.001, 


0.001, 


0.001]. 


[0. 001. 


0.001 


0.001 


0.001 


0.001]] 
N=5 
def found from oneword ( 


oneword per): 


index - [] 
values - [] 
a - np.array 


oneword per) 


for v in np.argsort ( 


-1][: 


N]: 


index.append ( 


values.append ( 


oneword_per[v]) 


return index. 


values 
def found from twoword ( 


oneword per 


twoword per) : 


last = 0 
for i in range ( 


len ( 


jin per): 


current = np.multiply ( 


oneword per[i]. 


twoword per[i] 


if i = 


last = current 
else: 


last = np.concatenate ( 


last. 


current) ， 


axis=0) 


index = [] 
values = [] 
for v in np.argsort | 


last) 


aJ 


N]: 


index.append 


[v / 5. 


v% 5p 


values.append | 


last[v]) 


return index, 


values 
def predict | 


word) : 


if word == 'jin': 


for i in found from oneword | 


jin per) 


[0]: 


print jin[i] 
elif word -- 'jintian': 


for i in found from twoword | 


jin per. 


jintian per) 


[0]: 


print jin[i[0]] + jintian[i[1]] 
elif word -- 'wo': 


for i in found from oneword | 


wo per) 
[0]: 
print wo[i] 
elif word -- 'women': 

for i in found from twoword | 
wo per. 
women per) 
[0]: 


print wo[i[0]] * women[i[1]] 
elif word == 'jintianwo': 


indexi, 


valuesi = found from oneword | 


wo. per) 


index2,. 


values2 = found from twoword | 


jin per. 


jintian per) 


last = np.multiply | 


values1. 


values1) 


for i in np.argsort | 


last) 


-1]I 


N]: 


print jin[index2[i][0]]. 


jintian[index2[i][1]]. 


wo[i] 
elif word == 'jintianwomen' 


index1 


values1 = found from twoword 


jin per. 


jintian per 


index2. 


values2 - found from twoword 


wo_per, 


women_per) 


last = np.multiply ( 


values1. 


values1) 


for i in np.argsort | 


last) 


-A][: 


N]: 


print jin[index1[i][0]]. 


jintian[indexi[i][1]]. 


wo[index2[i][0]] 


women [index2[i][1]] 
else. 


pass 
if name -- ' main 


predict 


'jin') 


predict 


'jintian') 


# ER 


# 近 填 


predict | 


predict ( 


'women ') 


8 我 们 


# 我 问 


# 我 门 


# RA 


# 我 拉 


predict | 


! jàntianwo') 


7 ERE 


# 近 填 握 


# 近 田 臣 


predict | 


'jintianwomen') 


8 今天 我 们 


# QERA 


# 近 田 我 拉 


# 近 填 我 炯 


# 近 天 我 门 


根据 算法 ， 示 例 输入 会 在 输 


入 jin”、“jintian”、“jintianwo”、“jintianwomen” 时 分 别 排序 输出 : 


fa. 
H e 
2 
Ei 
a 
» 
8p 
2 


jintian”: 今天 、 金 


jintianwo”: 今天 我 


jintianwomen". 今天 我 们 


10.4.2 ”前 向 算法 


再 来 看 问题 2 所 涉及 的 问题 , “AERA JUPE ( 隐 含 状态 数 
量 ) Reet A FR) ` RETR 〈 可 见 
状态 链 ) ， 想 知道 掷 出 这 个 结果 的 概率 ”， 解 决 这 个 问题 的 算法 叫做 前 
向 算法 (Forward Algorithm) 。 


还 是 来 看 这 个 例子 : 怀疑 自己 的 六 面 般 子 被 财 场 动 过 手脚 了 ， 有 
可 能 被 换 成 男 一 种 六 面 骨 子 ， 这 种 六 面 山 子 毛 出 来 是 1 的 概率 更 大 ， 是 
1/2， 毛 出 来 是 2、3、4、5、6 的 概率 是 /10。 应 该 怎么 办 ? 答案 很 简 
单 ， 算 一 算 正 党 的 3 个 仍 子 掷 出 一 段 序列 的 概率 ， 再 算 一 算 不 正常 的 六 
面 肯 子 和 另外 两 个 正常 休 子 掷 出 这 段 序 列 的 概率 。 如 果 前 者 比 后 者 
小 ， 就 要 小 心 了 。 例 如 ， 掷 蜗 子 的 结果 如 图 10-13 所 示 。 


要 算 用 正常 的 3 个 人 般 子 掷 出 这 个 结果 的 概率 ， 其 实 就 是 将 所 有 可 能 
情况 的 概率 进行 加 和 计算 。 同 样 ， 简 单 的 方法 惑 是 穷 举 所 有 的 从 子 序 
列 ， 还 是 计算 每 个 角子 序 列 对 应 的 概率 ， 但 是 这 回 不 挑 最 大 值 了 ， 而 
征 把 所 有 算出 来 的 概率 相 加 ， 得 到 的 总 概率 就 是 要 求 的 结果 。 这 个 方 
法 依然 不 能 应 用 于 太 长 的 人 般 子 序列 《马尔 可 夫 链 ) 。 这 里 应 用 一 个 和 
前 一 个 问题 类 似 的 解法 ， 只 是 前 一 个 问题 关心 的 是 概率 最 大 值 ， 这 个 


问题 关心 的 是 概率 之 和 。 首 先 ， 如 采 只 找 一 次 崩 子 ， 如 图 10-14 所 示 。 


结 采 为 1。 产 生 这 个 结果 的 总 概率 可 以 按照 如 表 10-8 所 示 计 算 ， 总 
概率 为 0.18 〈 表 格 中 取 的 都 是 约 等 值 ) 。 
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图 10-15 PYRE 


概率 如 表 10-9 所 示 。 


表 10-9 概率 


P1 P2 
1.1 f 1 1 
D4 FE P1(D4)*—*0+ PI(D6)* 26 PlDS)*= *0=0 
- e “a 3 
7 7 1.24 ET 1.1 
二 # 二 = 一 = 0.056 P1(D4) *—*—+ Pl(D6) *—*— + PI(D8)*—*— ~ 0.01 
sine 3 6 18 DO” eADD LG 
D8 lel. soos PYD4)*l*l, PI(D6)* 工 * 工 + pipgj*l«l. 0.007 5 
dB 对 3 8 3 8 3: 8 
i 0.18 0.018 


继续 拓展 ， 计 算 据 角子 3 次 的 情况 ， 如 表 10-10 所 示 。 


同样 ， 如 果 有 更 长 的 掷 仍 子 序列 ， 也 能 进行 统计 和 计算 。 用 一 样 

的 方法 进行 计算 ， 可 以 算出 正音 的 六 面 难 子 和 另外 两 个 正 间 瞬 子 掷 出 

这 个 序列 的 概率 ， 然 后 比较 一 下 两 个 序列 概率 的 大 小 就 能 知道 仍 子 是 

否 被 人 置换 过 。 在 这 个 例子 里 ， 如 果 发 现 使 用 的 骨 子 毛 出 来 的 序列 的 

出 现 概 率 比 计算 出 来 的 “标准 ”概率 低 很 多 或 者 高 很 多 ， 那 就 很 可 能 是 
被 置换 过 的 。 


表 10-10 ”概率 


P1 P2 P3 
D4 1.1.1 0.083 PKD4)y*l«o4 pipe *1*0« pipg*l*0-0 P2(D4)* sla lip) 2(D6)* «ly lip X(D8)* «ila 0.001 5 
3 4 12 ^^ 3 3 3 34 3 4 3 4 
ci: I : 1,1 Lo 1,1 141 gigi 
l*—-— x 0.056 P\(D4) *=*—+ P1(D6)*=*—+ PI(D8)*—*— «0.01 P2(D4)*—*—+ P2(D6 —+ P2(D8)*—*==0.000 97 
ne 3 6 18 Se T (09* 6 DO" ( 3 6 
1,1_1 1.1 1.1 1.1 " E Ld eal 
Il*--— 40.042 P1(D4)*—*—+ P1(D6)*—*—+ PI(D8)*—*— «0.007 5 P2(D4) *—*—+ P2(D6) *=*—+ P2(D8)*—*=~ 0.000 73 
D8 iT OO TEOR a A POST e DO" 
i 0.18 0.018 0.003 2 


10.5” 文 持 疝 量 机 SVM 


文 持 癌 量 机 SVM 有 十 一 种 比较 抽象 的 算法 概念 ， 全 称 是 Support 
Vector Machine， 它 可 以 用 来 做 模式 识别 、 分 类 或 者 回归 的 机 器 学 习 。 


前 面 介绍 过 机 絮 学 习 古 为 了 解决 样本 和 具体 分 类 映射 的 问题 ， 构 
造 一 个 算法 ， 把 已 知 样本 的 特征 和 分 类 情况 做 一 个 逻辑 映射 关系 ， 这 
样 碰 到 新 样 本 时 惑 能 用 这 个 算法 把 它 进行 分 类 了 。 


太 稀 松平 常 ， 从 学 术 上 不 能 把 它们 归 为 机 器 学 习 的 算法 ， 因 为 这 简直 
无 须 学 习 。 例 如 ， 大 于 零 的 实数 叫 正 数 ， 小 于 零 的 实数 叫 负数 。 这 有 是 
一 个 定义 ， 但 同时 也 是 一 个 算法 。 数 学 表达 式 如 下 : 
| Positive x>0 
属性 = . 
| Negative x«0 
所 以 ， 如 果 有 一 个 实数 x， 判 断 x 属 于 正 数 (Positive) 还 是 负数 
(Negative) ， 只 要 在 这 个 算法 里 一 套 ， 立 刻 就 能 进行 分 类 ， 这 简直 
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这 个 过 程 其 实 不 是 一 个 机 器 学 习 过 程 ， 细 心 的 读者 应 该 能 注意 
到 ， 这 里 似乎 看 不 到 有 “学 习 ” 这 个 过 程 存在 。 没 错 ， 这 个 方法 和 我 们 


在 “机 器 学 习 ” 之 前 学 习 的 算法 书写 方式 几乎 是 一 样 的 ， 都 钙 人 来 告诉 
计算 机 判定 的 定义 如 何 ， 然 后 计算 机 根据 这 个 判定 的 定义 来 处 理 每 一 
个 待 判定 的 对 象 。 这 里 面 计算 机 确实 没有 这 个 学 习 的 过 程 。 


什么 情况 下 束 算 开始 学 习 的 过 程 了 呢 ? 下面 把 上 述 例子 “进化 ”。 


10.5.1 ”年龄 和 好 坏 


如 琳 到 了 茶 公司 工作 ， 领 导 交 代 任 务 :“ 来 ， 把 这 些 客 户 给 我 分 分 
类 。 看 看 什么 样 的 用 户 质 量 比较 高 ， 什 么 样 的 用 户 质量 比较 低 。 以 后 
业务 部 门 去 拓展 硕 能 提高 客户 发 展 的 效率 。” 客 户 信息 列表 如 表 10-11 所 


修 ° 


客户 编号 客户 年 龄 客户 质量 客户 编号 客户 年 龄 客户 质量 
XXXX 34 好 XXXX 30 好 
XXXX 33 好 XXXX 25 不 好 
XXXX 32 好 XXXX 23 不 好 
XXXX 31 好 XXXX 22 不 好 
NXE 30 好 XXXX 18 不 好 


在 这 个 列表 中 ， 只 能 看 到 “客户 年 龄 "和 “客户 质量 ?两 个 列 ， 这 个 例 
子 已 经 是 比较 极端 的 例子 了 ， 因 为 在 这 里 从 一 开始 就 认为 只 有 客户 年 
龄 有 可 能 会 跟 客户 质量 有 关系 。 客 户 质 量 是 由 具体 的 业务 部 门 根据 他 
们 的 评价 标准 来 做 的 衡量 ， 衡 量 标准 是 不 是 合理 暂且 不 管 一 因为 不 
管 他 们 内 部 用 什么 衡量 标准 ， 肯 定 是 有 他 们 自己 的 评价 体系 去 做 ， 总 
之 客户 质量 是 能 够 这 样 描述 就 行 了 。 再 来 看 “客户 年 龄 ?这 一 列 ， 这 个 
列表 在 真实 情况 下 有 可 能 会 非常 长 ， 如 果 有 10000 个 客户 ， 那 就 可 能 
10000 行 ， 这 里 示意 性 地 找 出 10 行 来 演示 ，10000 行 也 是 同样 的 原理 。 


那 在 这 个 有 限 信 息 的 模型 里 只 能 通过 年 龄 来 对 客户 质量 好 不 好 进行 评 
价 了 ， 如 图 10-16 所 示 。 
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图 10-16 客户 信息 的 数 轴 表 示 


从 图 10-16 中 可 以 看 出 ，30 以 上 的 都 好 ，25 以 下 的 都 不 好 。 也 就 是 
说 可 以 考虑 在 “客户 年 龄 "字段 的 90 和 25 中 间 切 一 刀 ， 一 边 是 好 一 边 是 
不 好 ， 那 么 切 在 哪儿 好 呢 ? 直观 上 看 ， 似 乎 应 该 是 切 在 (30425) /2 的 
位 置 ， 也 就 是 27.5， 这 基本 上 也 是 从 目前 的 情况 能 够 得 到 的 最 为 合理 的 
方案 。 例 如 ， 来 了 一 个 27 罗 的 新 客户 ， 那 么 他 更 有 可 能 是 “好 ”的 客户 
还 是 “不 好 ”的 客户 呢 ? 因为 看 起 来 离 “ 不 好 ”客户 这 边 更 近 ， 所 以 算 “ 不 
好 ”的 客户 应 该 更 合理 ， 如 图 10-17 所 示 。 


18 22 23 25 27S 30 31 32 33 34 


图 10-17 ”以 27.5 为 分 界 
如 果 这 种 例子 怎么 办 ? 例如 ， 客 户 信息 列表 如 表 10-12 所 示 。 


表 10-12 ”客户 信息 


图 10-18 客户 信息 的 数 轴 表 示 


文 个 就 比较 麻 烦 了 ， 因 为 发 现 没 有 办 法 做 到 一 刀 切 ， 确 实 做 不 
到 ， 和 皇 么 切 都 至 少 有 一 方 “ 成 分 不 纯 ”。 那 么 现在 有 以 下 两 种 选择 。 


(1) 把 这 两 类 全 部 标 出 来 : 


Good x= 30. x z AT 


— Good x23 
属性 = 
NotGood x € 25.x ¥ 23 
NotGood x=3] 


这 又 是 一 个 分 段 函 数 一 样 的 标记 ， 准 确 ， 但 是 标记 起 来 相当 哆 
。 别 筷 了 ， 你 可 能 是 在 10000 个 甚至 更 多 的 客户 对 象 里 去 做 这 个 事 
， 最 后 函数 接 述 会 不 会 一 张 A4 纸 都 印 不 下 可 说 不 准 了 ， 毕 葛 这 个 关 
系 是 从 得 到 的 数据 里 归纳 而 来 的 ， 实 际 有 多 复杂 只 有 看 实际 情况 了 。 
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所 以 这 种 标记 方法 容易 产生 的 问题 就 是 过 拟 。 过 拟 在 第 8 章 已 经 接触 过 
了 ， 即 为 了 远近 “事实 ?而 让 摘 述 变 得 过 于 复杂 的 情况 。 


(2) 一 刀 切 。 反 正 只 要 一 刀 切 会 非常 简洁 ， 如 果 这 一 刀 切 下 去 虽 
然 两 边 的 类 都 不 纯 或 者 一 边 的 类 不 纯 ， 但 是 只 要 不 纯 的 程度 在 能 容 肪 
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gH Good x 221.5 
—" NotGood x — 27 


这 次 还 是 试 着 从 27.5 切 ， 大 于 等 于 27.5 的 就 算是 “好 ”， 小 于 27.5 的 
算是 “不 好 ”。 那 么 这 个 分 类 中 “好 ”类 的 “不 纯度 ”为 6， 约 为 
16.7%; “不 好 ”类 的 “不 纯度 ”为 /4， 即 25%。 这 个 比率 反正 在 我 看 来 还 
是 挺 高 的 ， 一 般 来 说 , “不 纯度 ”肯定 是 越 低 越 好 ， 在 这 个 场景 里 不 确 
定 16.7% 的 不 纯度 是 不 是 能 够 满足 领导 的 需要 。 如 果 说 原来 在 不 做 这 种 
数据 分 析 的 情况 下 ， 发 展 10 个 客户 ， 有 6 个 是 “好 ”客户 ，4 个 是 “不 好 ”的 
客户 ; 现在 改进 后 虽然 有 一 定 的 误 判 率 一 一 由 于 分 类 不 纯 的 问题 ， 但 
是 直接 过 滤 掉 一 些 对 象 ， 发 展 10 个 客户 有 8.3 个 是 “好 ”的 客户 ， 还 有 大 
概 1.7 个 是 “不 好 ”的 客户 。 从 数值 上 看 ， 方 案 策略 的 提升 应 该 是 有 改进 
HY) e 


总 结 一 下 ， 上 述 例 子 里 有 以 下 几 个 关键 性 的 信息 。 


KERL: 切 下 去 点 在 SVM 算法 体系 里 叫 “ 超 平面 ”。 这 个 “ 超 平 
面 ” 是 一 个 抽象 的 面 概念 ， 在 一 维 空间 里 就 是 一 个 点 ， 用 x+A=0 来 表 


示 ; 二 维 空间 里 就 是 一 条 线 ， 用 Ax+By+C=0 的 直线 来 表示 ; 三 维 空间 
里 就 是 一 个 面 ， 用 Ax+By+Cz+D=0 的 平面 来 表示 ; 四 维 空 间 就 想象 这 
个 面 的 存在 吧 ， 但 是 可 以 推断 出 应 该 是 用 Ax+By+Cz+Da+E=0 来 表示 ， 
以 此 类 推 .…… 上 述 4 个 方程 都 可 以 变形 为 


的 这 种 形式 。 


在 上 述 例子 中 ， 相 当 于 是 在 一 个 一 维 空间 里 在 x=27.5 的 位 置 画 了 一 


个 “ 超 平面 ”( 有 零 维 的 点 ) 。 即 x-27.5=0 这 个 方程 就 是 超 平面 。 即 x-27.5 
>0 的 都 是 分 类 为 “好 ”的 样本 ，x27.5<0 的 则 都 不 是 分 类 为 “好 ”的 样 
本 o 


关键 点 2: 过 拟 问 题 ， 一 般 来 说 ， 设 计 分 类 器 都 是 要 尽量 避免 过 拟 
的 。 过 拟 会 给 归纳 过 程 帝 来 很 大 的 麻烦 ， 而 且 在 应 用 的 过 程 中 也 非常 


不 方便 ， 只 要 精确 度 达到 标准 就 足够 了 。 什 么 是 精确 度 ， 束 是 要 说 的 


最 后 一 点 。 


关键 点 3: 不 纯度 问题 。 不 纯度 和 精确 度 是 一 对 矛盾 ， 精 确 度 越 高 
那么 不 纯度 就 越 低 ， 反 之 ， 不 纯度 越 蜗 精确 度 束 越 低 。 分 类 器 的 研究 
和 调整 的 过 程 是 一 个 精度 和 成 本 平衡 的 过 程 ， 所 以 并 不 是 不 纯度 越 低 
越 好 ， 而 是 在 实际 生产 中 操作 成 本 一 样 的 情况 下 ， 不 纯度 越 低 越 好 。 


10.5.2 “FIP NRA 


在 上 一 个 例子 里 发 现 样本 在 维度 单纯 〈 只 有 一 个 年 龄 维度 ) oq 
且 “ 分 界线 ”比较 清晰 的 情况 下 ， 几 乎 没有 用 到 任何 超过 高 中 及 以 上 学 
历 所 学 的 知识 内 容 束 能 轻易 解决 。 


如 琳 x 的 分 布 复 洒 一 些 ， 和 情况 会 怎么 样 ? 


下 面 举 一 个 三 角 函 数 作为 分 界线 的 例子 ， 如 图 10-19 所 示 。 


图 10-19 ”sinx 的 图 形 


图 10-19 中 有 两 类 样本 ， 一 类 是 用 圆圈 标识 出 来 的 A 类 别 ， 一 类 十 
用 三 角 标 识 出 来 的 B 类 别 。 如 果 碰 巧遇 到 这 种 情况 ， 在 一 个 (x, y 二 
维 向 量 组 成 的 空间 上 有 大 量 的 样本 (这 比 在 只 有 一 个 空间 维度 年 龄 x 要 


复杂 一 些 ) ， 但 是 恰好 两 类 样本 能 用 一 个 函数 巧妙 地 分 开 ， 能 保证 简 
洁 (不 过 拟 ) 和 精确 〈 不 纯度 极 低 ) 。 如 果 y=sin (x) 这 样 的 曲线 能 够 


si) 
恰好 把 它们 分 开 ， 将 是 一 条 非常 简洁 的 分 割 线 (虽然 不 是 直线 ) 。 


但 是 ， 机 器 学 习 的 方法 基础 都 是 统计 和 归纳 ， 从 大 量 样本 空间 来 
的 样本 可 没有 那么 简单 ， 如 果 找 不 到 一 个 像 y=sin (x) 这 么 简洁 的 曲线 
RABE ZI? 是 不 是 只 能 面临 过 拟 的 情况 ? 如 采 下 一 个 是 y=cos 

(x) ， 或 者 y=sin (x) +log (x) 怎么 办 ， 会 每 次 那么 幸运 都 能 轻易 找 
到 一 条 简洁 的 曲线 来 解决 问题 吗 ? 


和 人们 研究 机 妖 学 习 的 日 的 是 使 用 具备 广 说 性 的 算法 思路 来 解决 多 
样 的 事情 ， 如 果 人 解决 每 一 个 问题 都 是 不 同 的 解法 ， 甚 至 思路 巡 异 ， 那 
这 种 Case by Case 的 方式 完全 不 能 被 称 为 一 类 解决 方法 。 而 现在 讨论 的 
文 持 同 量 机 SVM 束 是 要 解决 这 类 问题 ， 它 也 号 称 是 万 能 分 类 铝 。 


10.5.3 ERSZ 


在 一 个 平面 直角 坐标 系 中 ， 有 一 些 样 本 点 作为 训练 点 ， 一 些 被 标 
记 为 类 别 X， 一 些 标记 为 非 类 别 X。 也 就 是 样本 训练 中 ， 一 些 样本 明确 
标 出 是 这 个 分 类 ， 而 男 一 些 样 本 标 出 不 是 这 个 分 类 。 


最 朴素 的 想法 是 ， 如 果 能 找到 一 条 直线 Ax+By+C=0 能 够 恰好 把 它 
们 区 分 成 两 个 部 分 就 最 好 了 。 那 么 这 条 线 应 该 上 怎么 来 找 呢 ? 


如 有 果真 的 像 图 10-19 所 画 这 样 ， 那 么 确实 会 有 一 条 直线 
Ax+By+C=0， 问 题 是 忠 像 用 逐 蕾 法 求解 重力 加 速度 g 的 过 程 一 样 ， 这 
个 Ax+By+C=0 有 很 多 种 画 法 。 在 求解 重力 加 速度 g 的 那 一 节 讨 论 过 ， 
有 一 种 叫做 最 小 二 乘法 的 办 法 可 以 求 出 一 个 使 得 回归 后 误差 最 小 的 
解 。 那 么 在 求解 这 个 Ax+By+C=0 的 过 程 中 也 是 为 了 求解 出 适当 的 A 和 
B， 让 这 两 个 组 分 开 最 为 恰当 。 恰 当 的 标准 是 让 类 别 X 中 与 该 直线 最 近 
的 样本 点 的 距离 和 非 类 别 X 中 的 样本 点 中 与 该 直线 的 距离 最 大 。 


这 和 回归 中 布 望 拟 合 出 来 的 曲线 和 得 到 的 样本 尽 可 能 贴近 这 一 观 
点 接近 ， 这 里 画 出 的 这 条 直线 是 希望 让 被 分 开 的 两 个 类 别 (RAA 
非 类 别 X) 尽 可 能 远 ， 也 就 是 相差 越 远 分 得 越 开 。 相 反 ， 如 果 划 了 一 
条 线 几 乎 要 同时 经 过 一 个 类 别 X 的 样本 点 和 一 个 非 类 别 X 的 样本 点 ， 那 


出 现 一 个 新 的 和 X 很 * 像 ”的 样本 点 则 很 容易 被 画 到 非 类 别 X 中 去 ， 这 和 
期 望 的 形态 是 不 一 样 的 。 

在 平面 直角 坐标 系 中 ， 如 果 有 一 条 直线 ， 方 程 是 Ax+By+C=0， 那 
AA (xy, Yo) 到 该 直线 的 距离 如 下 : 
_ |Ax, + By, +C 
A^ + BP 


d 


如 果 数 轴 上 也 需要 用 类 似 :“x-27.5> 0 的 都 是 分 类 为 ‘好’ 的 样本 ， 
x-27.5<0 的 则 都 不 是 分 类 为 "好 的 样本 。” 这 种 方式 来 做 分 割 ， 有 了 
Ax+By+C=0 这 样 一 个 方程 等 于 有 了 一 个 工具 ， 可 以 发 现 ， 所 有 X 类 别 
中 的 样本 点 都 满足 Ax+By+C>0， 而 反之 所 有 非 X 类 别 中 的 样本 点 都 满 
足 Ax+By+C<0， 当 然 这 个 结果 也 是 最 开始 构造 Ax+By+C=0 这 条 线 的 
目的 。 


推广 一 下 ， 三 维 空间 上 的 超 平面 划分 后 两 个 分 类 (一 个 是 目标 分 
类 ， 一 个 不 是 目标 分 类 ) 表示 束 是 一 个 满足 Ax+By+Cz+D>0 另 一 个 满 
AAXx*tBy*Cz4*D <0 ° 


四 维 空间 上 则 是 Ax+By+Cz+Da+E > 0OF1Ax+By+Cz+DatE <0 ° 


其 实 样子 看 上 去 相当 类 似 ， 都 是 各 维度 坐标 点 前 面 乘 以 一 个 系数 
之 后 再 加 一 个 和 常数。 可 以 把 这 个 超 平面 的 公式 简写 成 


g(v) = wvtb 


Vv 是 样本 向 量 ，b 古 常数 。 


在 二 维 空间 里 ，v 就 是 (x, y) ， 在 三 维 空间 里 v 就 是 (x, y, 
z) ， 其 余 情 况 以 此 类 推 ， 而 w 也 是 一 个 向 量 ， 在 二 维 空 间 里 w 束 是 
(A, B) ， 在 四 维 空间 里 w 就 是 (A，B，C) ， 其 余 情况 以 此 类 推 。 
而 wt 在 二 维 空间 里 束 是 Ax+By， 在 三 维 空间 里 就 是 Ax+By+Cz。 如 果 
看 到 


g(x)=w x+b 


g(x)=wx+b 


g(x)=w : x-b 


这 几 种 形式 意思 是 一 样 的 ， 其 中 的 x 都 不 是 一 个 实数 值 而 是 在 不 同 
维度 空间 下 的 同 量 。 


10.5.4 ”NN 维度 空间 中 的 距离 


Eg (v) =wv+b 这 种 定义 方式 中 ，w 是 一 个 1xn 的 矩阵 ，v 是 一 个 
nx1 的 矩阵 ，wv 就 是 两 个 矩阵 做 了 一 个 内 积 ， 也 就 是 2" 7 ,，n 是 维度 的 
数量 ，w; 就 是 每 个 维度 变量 前 面 的 系数 ，v; 就 是 每 个 维度 变量 。 


在 二 维 空间 内 ， 一 个 点 (xq. yo) 到 一 条 直线 Ax+By+C=0 的 距离 
如 下 : 
| 4x, + By, +C 
A’ +B? 


= 


在 三 维 空间 内 ， 一 个 点 (xo yo. zo) 到 一 个 平面 
Ax+By+Cz+D=0 的 距离 如 下 : 
| Ax, + By, + Cz, +D 

VA? T B^ +C 


在 一 维 空间 内 ， 一 个 点 (xo) 到 一 个 点 Ax+B=0 的 距离 如 下 : 


T. 


~ &B 
| 


但 同时 


Ax,+B| 


Jz 


dies 


规律 性 已 经 非常 明显 了 。 


在 有 些 书 上 会 介绍 一 个 叫做 范 数 的 概念 ， 上 述 Y4 + Vm > 
ABC 等 分 别 就 是 一 维 空间 、 二 维 空 间 、 三 维 空间 中 的 范 数 ， 
f'llw]| * 在 不 同 的 维度 下 ， 这 个 范 数 ||lw|| 的 具体 值 是 不 一 样 的 ， 是 超 平 
面 方程 的 各 维度 系数 的 平方 和 再 开 方 ， 古 一 个 和 超 平面 描述 方程 系数 
相关 的 定 值 。 


这 样 一 来 ， 距 离 公 式 束 可 以 简写 成 
l 
d - ——-.|eg(v) 
|w 


维度 确定 时 这 个 公式 中 所 有 的 值 都 是 确定 的 。 要 判断 一 个 点 到 这 
个 平面 的 距离 ， 只 要 把 空间 坐标 代入 v 即 可 。 


10.5.5” 超 平面 怎么 画 


上 述 例 子 实际 上 是 在 空间 里 先 画 一 个 g (v) 的 平面 ， 然 后 代入 所 
有 的 样本 点 ， 每 个 点 到 这 个 超 平面 的 距离 都 能 求 出 来 ， 但 是 这 个 平面 
并 不 是 超 平面 。 这 里 其 实 有 点 本 末 倒 置 ， 因 为 超 平面 的 目的 是 把 样本 
点 分 成 两 类 ， 一 类 “是 ”， 一 类 “不 是 ”。 那 么 这 个 平面 的 产生 是 要 有 约 
束 条 件 的 ， 至 少 是 要 受到 样本 的 影响 和 制约 的 ， 而 在 g (v) =wv+b 这 
个 公式 展开 的 表达 中 看 到 这 样 的 约束 了 吗 ? 完全 没有 。 


直观 的 感觉 是 这 样 : 希望 的 十 找到 一 个 平面 作为 超 平面 ， 它 恰好 
在 两 个 类 中 间 分 开 ， 以 它 为 基准 画 两 个 与 它 平行 的 平面 ， 让 这 两 个 平 
面 分 别 向 两 个 方向 平行 移动 ， 即 一 个 向 类 别 X 聚 集 的 方向 移动 ， 一 个 
向 非 类 别 X 聚 集 的 方向 移动 。 当 这 两 个 平面 同时 (等 距离 分 别 触 碰 
到 类 别 X 和 非 类 别 X 的 点 时 停止 下 来 ， 记 录 这 个 平面 的 w 和 b， 记 录 此 
时 的 移动 距离 585。 这样 的 平面 也 许 不 止 一 个 ， 但 是 会 找到 一 个 能 让 5 尽 
可 能 大 的 值 ， 这 个 能 产生 最 大 6 值 方案 的 w 和 b 所 构成 的 g (v) =wv+b 
Bie RECA REAP TT. o 


直观 感觉 吏 是 我 们 画 了 一 个 平面 把 一 类 “是 ”、 一 类 “不 是 ”这 两 类 
样本 分 隅 开 ， 并 且 让 它们 到 超 平面 的 距离 都 尽 可 能 大 ， 这 就 古 原 则 。 


这 个 平面 是 完全 有 可 能 通过 程序 找 出 来 的 。 


10.5.6 “分 不 开 怎 么 办 


由 于 得 到 的 众多 的 (v，y) 样本 分 类 是 不 确定 的 一 一 v 为 多 维 空间 
上 的 样本 ，y 为 分 类 只 有 0 和 1 两 种 状态 。 所 以 确实 没有 办 法 你 证 在 当前 
的 空间 上 一 定 能 有 一 个 超 平 面 把 它们 请 晰 地 隅 开 ， 或 者 说 不 管 怎 么 
画 ， 这 个 超 平面 都 会 产生 让 人 不 能 妨 受 的 误 判 率 ， 如 图 10-20 所 示 。 


ay 


图 10-20 ”两 种 分 类 


图 10-20 所 示 为 由 日 点 和 黑 点 表示 的 两 种 分 类 ， 不 管 怎么 画 这 个 超 
平面 都 会 有 非常 大 的 误 判 率 ， 这 种 情况 也 叫做 线性 不 可 分 。 在 3 个 维度 
以 下 ， 用 肉眼 观察 有 限 的 几 个 样本 还 是 能 够 一 目 了 然 地 做 判断 的 ， 可 
以 判断 是 不 十 线性 可 分 ， 如 果 维 度 超过 3 个 或 者 样本 数量 太 多 就 不 好 观 


察 了 ， 这 时 要 使 用 计算 机 进行 计算 。 可 以 转化 一 种 思路 来 解决 这 个 问 
了 ， 即 升 维 _ 这 才 是 SVM 算法 最 为 吸引 人 的 部 分 。 


& 


先 来 看 一 个 一 维 数据 的 例子 ， 来 说 明 升 维 的 概念 。 


假设 在 数 轴 上 给 出 一 些 数据 ， 其 中 [-2，2] 区 间 内 的 被 标记 成 了 分 
类 1， 其 余 的 部 是 分 类 0， 能 够 给 出 一 个 分 段 贸 数 吗 ? 似乎 不 能 。 怎 么 
去 定义 这 个 切 开 的 点 都 会 产生 大 量 的 误 分 类 。 但 是 换 一 个 办 法 可 能 吏 
能 顺利 地 解决 。 例 如 ， 在 这 个 例子 里 可 以 构造 一 下 ， 在 [-2，2] 这 个 区 
间 里 让 一 个 函数 大 于 0， 而 在 其 他 部 分 小 于 0。 例 如 ， 把 分 类 函数 写成 


foul, ST 
0 -x°+4<0 
或 者 可 以 认为 
Ng = : : 
且 
y=—x +4 


z =fly) 


y--x? +4 图 形 如 图 10-21 所 示 ， 这 实际 上 是 y=-x* +4 这 个 函数 在 y=0 
(x 轴 ) 这 条 直线 上 的 投影 。 


图 10-21 y=-x2+4 的 图 形 


同样 ， 在 二 维 空间 中 也 有 类 似 的 方式 ， 例 如 ， 如 采样 本 向 量 v 距 离 
原点 (0，0) 的 距离 为 1 以 内 分 类 被 标记 为 0， 其 余 都 是 1。 同 样 是 线性 
不 可 分 ， 但 是 可 以 构造 一 个 这 样 的 函数 : 


| y-5)221 
rafi 


Q aay? 1 


或 者 可 以 这 么 认为 : 


]zz 
/=10 2 
a =f) 


Z ~64.1513 188.482 


图 10-22 x? +y? -1 的 图 形 


同样 用 非常 简 污 的 方式 解决 了 这 个 分 类 问题 。 不 过 可 能 有 的 朋友 
要 说 了 ， 这 个 也 太 普 巧 了 吧 ， 我 们 不 可 能 每 次 都 这 么 邓 运 找到 这 种 函 
数 通 过 观察 就 很 快 构造 出 分 类 函数 ( 超 平 面 方程 ，。 没 错 ， 我 们 平时 
E ET PS Bl A PIT EI EB ETE AR BY SPY, SVME eR 


问题 。 


可 以 看 到 ， 在 一 维 空间 上 人 解决 线性 不 可 分 问题 苹 把 函数 映射 到 二 
维 空间 ， 使 得 一 维 空间 上 的 分 类 边界 是 二 维 空 间 上 的 分 类 函数 在 一 维 
空间 上 的 投影 ， 而 在 二 维 空间 上 解决 线性 不 可 分 问题 是 把 函数 映射 到 
三 维 空间 ， 使 得 二 维 空间 上 的 分 类 边界 是 三 维 空间 上 的 分 类 函数 在 二 
维 空间 上 的 投影 。 那 么 所 有 的 n 维 空间 上 的 线性 不 可 分 的 问题 都 可 以 考 
虑 映射 到 n+1 维 上 去 构造 分 类 函数 ， 使 得 它 在 n 维 空间 上 的 投影 能 够 将 
两 个 类 别 分 开 。 


这 个 构造 过 程 SVM 是 有 通用 的 方法 可 以 解决 的 ， 束 是 使 用 核 画 数 
(Kernel) 进行 构造 。 而 且 ， 有 几 个 常用 的 核 函 数 是 可 以 拿 来 直接 使 
用 的 ， 如 线性 核 函 数 、 多 项 式 核 画 数 、 径 向 基 核 钞 数 (RBEIAER 
数 ) 、 高 斯 核 函 数 等 ， 能 够 查 到 的 核 画 数 有 二 三 十 种 之 多 。 


核 函 数 的 目的 很 单纯 ， 即 只 要 在 当前 维度 空间 的 样本 是 线性 不 可 
分 的 ， 束 一 律 映 射 到 更 高 的 维度 上 去 ， 在 更 高 的 维度 上 找到 超 平 面 ， 


得 到 超 平面 方程 。 而 在 更 高 维度 上 的 超 平面 方程 实际 并 没有 增加 更 多 
的 维度 变量 ， 更 高 的 这 个 维度 只 是 像 在 解 儿 何 题 里 使 用 的 辅助 线 而 
己 ， 最 后 得 到 的 方程 不 会 增加 其 他 维度 。 例 如 ， 研 究 二 维 空间 上 的 回 
量 分 类 问题 ， 那 么 经 过 核 函 数 映射 ， 最 后 得 到 的 超 平 面 变 成 了 二 维 衬 
间 上 的 曲线 (但 同时 也 是 三 维 空间 上 的 一 次 方程 ，; 研究 三 维 空间 上 
的 向 量 分 类 问题 ， 那 么 经 过 核 男 数 映 射 ， 最 后 得 到 的 超 平面 变 成 了 二 
维 空间 上 的 曲面 《但 同时 也 是 四 维 空间 上 的 一 次 方程 ) 。 画 数 表示 只 
是 一 个 变量 代 换 关系 。 


10.5.7 示例 


为 了 方便 说 明 ， 这 里 还 是 用 熟悉 的 例子 给 出 一 个 分 类 用 法 的 示 
例 ， 客 户 信 息 列表 如 表 10-13 所 示 。 


表 10-13 ”客户 信息 


客户 编号 客户 年 龄 客户 质量 客户 编号 客户 年 龄 客户 质量 
XXXX 34 üf XXXX 30 好 
NOE 33 不 好 XXXX 25 不 好 
XXXX 32 li XXXX 23 好 
KXK 31 不 好 XXXX 22 不 好 
XXXX 30 好 KXXX 18 好 


这 个 例子 很 极端 了 ， 因 为 客户 年 龄 和 客户 质量 之 间 已 经 是 没 办 法 
做 线性 分 割 了 。 这 时 可 以 用 SVM 来 做 分 类 。 


在 Python 的 Scikit-learn 库 中 ， 用 到 的 是 一 个 叫做 SVC 的 类 ，SVC 是 
Support Vector Classification 的 缩写 ， 即 支持 癌 量 分 类 机 。SVC 所 文 持 的 
核 男 数 包 括 linear 〈 线 性 核 画 数 ) 、poly (SITKA) 、rbf GZM 
IETAENTIO ^ sigmoid (神经 元 激活 核 男 数 ) ` precomputed (HE XU 
函数 ) ， 黑 认 使 用 rbf 核 函数 。 


在 这 个 例子 中 ， 将 使 用 rbf 核 男 数 ， 这 也 是 最 适合 做 非 线 性 天 系 分 
类 标准 的 下 选 核 芳 数 。 如 末 这 几 种 核 芳 数 实在 不 知道 该 用 哪个 ， 那 下 


在 实际 场景 中 多 做 对 比 测 试 ， 看 看 哪 一 种 的 正确 率 更 高 ， 


学 术 层 面 的 推导 困难 而 不 敢 实 践 。 代 码 如 下 : 


from sklearn import svm 
# 年 龄 


X = [[34]. 


[33]. 


[32]. 


[31]. 


[30]. 


[30]. 


[25]. 


[23]. 


[22]. 


[18]] 
# 质 量 


y= [L 


1] 
# 现 在 把 训练 数据 和 对 应 的 分 类 放 入 分 类 器 中 进行 训练 


rbf 
clf = svm.SVC ( 


kernel='rbf') 


Fat ¢ 


# 预 测 年 龄 


30 的 人 的 质量 


p = [[30]] 
print clf.predict ( 


10.5.8 ^ 


SVM 解决 问题 的 方法 描述 起 来 大 概 有 以 下 几 步 。 


(1) 把 所 有 的 样本 和 其 对 应 的 分 类 标记 交 给 算法 进行 训练 。 


(2) 如 采 发 现 线性 可 分 ， 那 就 直接 找 出 超 平面 。 


(3) 如 果 发 现 线性 不 可 分 ， 那 就 映射 到 n+1 维 空间 ， 找 出 超 平 


(4) 最 后 得 到 超 平 面 的 表达 式 ， 也 就 是 分 类 函数 。 


过 程 比较 简单 ， 只 是 实现 起 来 的 算法 确实 比较 复 洒 。 


10.6 ”遗传 算法 


在 本 章 的 最 后 介绍 一 下 遗传 算法 (Genetic Algorithm) ° 


与 其 说 遗传 算法 是 一 个 算法 ， 不 如 说 是 一 种 处 理 问 题 的 思想 方式 
更 为 恰当 ， 因 为 遗传 算法 整个 体系 都 是 在 说 对 于 一 种 问题 处 理 的 思路 
和 原则 ， 而 不 是 一 个 具体 的 代码 编写 过 程 。 


遗传 算法 是 一 类 借鉴 生物 界 的 进化 规律 ( 适 者 生存 ， 优 胜 劣 汰 遗 
传 机 制 ， 演 化 而 来 的 随机 化 搜索 方法 。 它 是 由 美国 的 J.Holland 教 授 于 
1975 年 首 移 提出 的 ， 但 是 它 借鉴 的 是 进化 论 的 理论 依据 。 在 这 个 体系 
里 ， 思 维 方式 远 比 编写 代码 重要 ， 所 以 完 介绍 一 下 著名 的 英国 生物 学 
家 查尔斯 :罗伯特 :达尔 文 一 一 进化 论 的 莫 基 人 。 


进化 论 不 是 一 本 书 ， 而 古 一 个 有 关 物 种 发 源 与 发 展 的 逻辑 体系 。 
达尔 文 在 1859 年 出 版 了 《物种 起 源 》， 由 此 开创 的 “ 物 况 天 择 ， 适 者 生 
存 ” 的 进化 论 体系 被 科学 界 公 认为 19 世 纪 自 然 科 学 的 三 大 发 现 之 一 05 
外 两 个 是 细胞 学 说 和 能 量 守恒 与 转化 定律 ) 。 达 尔 文 于 1882 年 4 月 病 
W, H TERI AMR EZEN, KRIE ERTE FME, 
位 于 英国 伦敦 的 威 斯 敏 斯 特大 教堂 (也 叫 西 敏 寺 ) 。 


10.6.1 进化 过 程 


在 物种 进化 中 的 例子 中 ， 最 开始 地 球 上 只 有 海洋 没有 陆地 ， 从 单 
细胞 动物 到 和 鱼 不 知道 进化 了 多 少 代 。 这 里 以 从 陆地 出 现 以 后 ， 第 一 批 
从 海里 想 上 岸 去 的 鱼 。 


佑 计 是 一 开始 有 一 群 鱼 ， 它 们 由 于 种 种 原因 跟 其 他 的 鱼 有 了 差 
别 ， 如 胆 儿 比 较 大 ， 有 一 个 能 直接 呼吸 空气 的 鳃 一 一 能 在 空气 里 还 
存活 ， 有 格外 强壮 的 鱼 得 快 一 些 。 再 后 来 这 些 鱼 里 就 有 技 
更 强 的 ， 一 些 在 陆 上 格外 倚重 的 器 官 如 琳 变 异 强 大 了 就 会 继续 支持 它 
们 在 陆 上 生活 ， 如 粗壮 的 鳍 、 空 气 报 入 能 力 更 强 的 肺 、 更 好 的 眼神 
等 。 适 应 的 种 群 才 会 在 相应 的 环境 里 生存 下 来 。 
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根据 进化 论 的 观 总 “ 物 竞 天 择 ， 适 者 生存 ”， 生 物 目 己 是 会 进行 一 
代 一 代 变 化 的 。 这 个 变化 本 来 是 没有 什么 方 同 的 ， 生 物 目 己 也 控制 不 
了 。 变化 由 什么 而 来 ? 第 一 ， 父 母 的 基因 进行 交换 重组 ， 第 二 ， 基 因 


it 
& 


一 代 一 代 在 整个 种 群 的 不 同 个 体 里 有 无 数 次 重组 的 机 会 ， 也 有 一 
定 的 基因 突变 的 机 会 ， 寻 致 了 者 干 代 以 后 ， 同 一 个 种 群 之 间 的 样 仿 可 
会 非常 不 一 样 。 例 如 ， 人 有 23 对 染色 体 ， 每 一 代 的 重组 和 突变 使 得 
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态 、 性 格 、 思 维 方式 、 疾 病 抵御 .…… 这 些 方 面 也 都 是 于 差 万 别 。 


尤其 是 人 类 历史 上 经 历 过 硅 干 次 大 的 瘟疫 一 一 14 世 纪 欧 洲 的 黑 死 
病 造 成 全 世界 超过 7000 万 人 死亡 ; 17 世 纪 在 欧洲 肆虐 的 天 花 病 毒 也 杀 
死 超过 4000 万 的 欧洲 人 。14 世 纪 得 了 黑 死 病 〈 是 一 种 鼠疫 杆菌 ) 基本 
忠 古 没 救 ， 防 治 天 伦 的 牛 兰 疫 盏 也 是 到 了 18 世 纪 才 人 研 发 出 来 ， 能 够 存 
活 下 来 的 人 群 其 实 也 并 没有 接受 像样 治疗 ， 科 学 家 分 析 基 本 只 能 解释 
为 基因 层面 对 抗 的 胜利 一 一 这 些 存 活 的 人 的 基因 比 那 些 患 病死 去 的 人 
有 看 对 抗 这 种 疾病 更 强 有 力 的 成 分 。 


不 论 是 由 于 基因 目 身 发 生 的 突变 ， 还 是 由 于 组 合 产生 的 独特 性 ， 
这 些 都 是 不 确定 性 的 变化 。 而 客观 世界 上 有 很 多 变化 对 人 类 种 群 做 出 
这 种 选择 的 裁 甬 ， 出 现 疾 病 就 是 裁 筋 那些 对 疾病 耐 受 力 弱 的 人 ， 出 现 
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而 后 被 动 地 被 选择 。 


10.6.2 ”算法 过 程 


在 了 解 了 进化 基因 层面 的 过 程 后 ， 是 要 落实 到 算法 过 程 上 去 的 。 
那么 怎么 来 构建 这 个 算法 过 程 呢 ? 关键 步骤 如 下 。 


(1) 基因 编码 。 在 这 个 过 程 中 ， 党 试 着 对 一 些 个 体 的 基因 做 一 个 
描述 ， 构 造 这 些 基因 的 结构 ， 有 点 像 确定 钞 数 目 变 量 的 过 程 。 


(2) 设计 初始 群体 。 在 这 个 环节 ， 需 要 造 一 个 种 群 出 来 ， 这 些 种 
群 有 很 多 生物 个 体 但 是 基因 者 不 相同 。 


(3) 适应 度 计算 (BY) 。 在 这 个 环节 ， 要 造 一 些 “ 上 帝 的 剪 
刀 " 对 那些 不 太 适 应 的 个 体 进 行 裁 甬 ,不 让 他 们 产生 后 代 。 和 最 终 入 选 
规则 差异 大 的 个 体 肯 定 不 适合 作为 备 选 对 象 ， 该 减 挥 一 定 要 减 挥 ， 否 
则 它 产 生 的 后 代 只 会 让 计算 量 更 大 而 距离 逼近 目标 没有 增 番 。 


(4) 产生 下 一 代 。 产 生 下 一 代 这 个 部 分 有 3 种 办 法 : 直接 选择 ， 


而 后 再 回 到 步 又 3 进行 循环 ， 适 应 度 计算 ， 产生 下 一 代 ， 这 样 一 代 
一 代 找 下 去 ， 直 到 找到 最 优 解 为 止 。 
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问题 (Traveling Salesman Problem， 即 旅行 商 问 题 ， 也 叫 货 郎 担 问 
题 ) 、 九 宫 问 题 ( 八 数码 问题 )、 生 产 调度 问题 (Job Shop 


Scheduling) ` H&P (Knapsack Problem， 即 NP 问题 ) 等 。 


下 面 介绍 一 个 具体 的 解 题 实 例 。 


10.6.3 ”背包 问题 


背包 问题 是 一 种 组 合 优化 的 NP ( 即 多 项 式 复杂 程度 的 非 确定 性 问 
题 ) 完全 问题 ， 这 类 NP 问题 的 特点 很 明显 ， 即 “生成 问题 的 一 个 解 通常 


比 验证 一 个 给 定 的 解 需要 花费 更 多 的 时 间 ”。 
先 来 看 一 个 例子 。 


第 一 个 例子 是 合 数 分 解 质 因数 问题 ， 如 果 现 在 有 一 个 命题 ， 分 解 
合 数 698975355227 为 儿 个 质数 相 乘 的 结果 。 那 么 怎么 算 ? 只 能 把 质数 
从 2 穷 举 到 V698 975 355 227 ，2 个 质数 一 起 、3 个 质数 一 起 、4 个 质数 一 
起 .……. 和 尝试 着 做 各 种 组 合 相 乘 看 是 否 等 于 这 个 结果 ， 这 是 一 个 非常 耗 
时 的 工作 ， 即 便 用 计算 机 ， 这 个 过 程 也 非常 耗 时 。 但 是 如 果 反 过 来 
说 ，698975355227 是 否 是 809、887、977、997 这 4 个 素数 的 乘积 ， 那 么 
验证 起 来 会 非常 快 ， 只 要 用 一 个 普通 的 计算 器 ， 用 不 了 多 长 时 间 就 能 
验算 出 来 。 这 就 是 所 谓 的 “生成 问题 的 一 个 解 通常 比 验 证 一 个 给 定 的 解 
需要 人 花费 更 多 的 时 间 ”。 


背包 问题 的 大 意 是 ， 有 N 件 物品 和 一 个 容量 为 V 的 背包 ， 第 i 件 物品 
的 重量 十 w[i]， 价 值 是 v[i] ， 求 解 将 哪些 物品 狐 入 背包 可 使 这 些 物品 的 
重量 总 和 不 超过 表 包 容量 ， 且 价值 总 和 最 大 。 


这 种 问题 就 是 典型 的 NP 问 题 ， 验 证 一 个 猜想 的 解 比 算出 一 组 解 要 
快 得 多 。 
我 们 来 具体 看 一 些 数字 可 能 会 更 直观 一 些 。 


假设 有 一 个 育 包 ， 可 以 放置 80 公 斤 的 物品 。 此 外 ， 还 有 如 表 10-14 
所 示 的 6 件 物品 。 


表 10-14 6 件 物品 


经 么 放置 才能 让 到 包 里 的 物品 价值 总 和 尽 可 能 多 呢 ? 


有 几 种 思路 ， 第 一 种 就 是 穷 举 法 。 每 种 物品 只 有 存在 (1) 和 不 存 
在 (0) 两 种 状态 ， 那 么 一 共 可 能 产生 的 方案 最 多 是 26 个 也 就 是 64 个 。 
把 每 种 组 合 具 体 的 重量 和 价值 都 算出 来 ， 超 过 80 公 斤 的 方案 束 直 接合 
去 ， 少 于 80 公 斤 的 吏 留 下 并 且 记 下 货品 总 价值 ， 到 最 后 比较 每 种 方案 
的 总 价值 大 小 即 可 。 


但 是 如 果 有 128 种 物品 这 个 方案 还 可 行 吗 ? 如 果 穷 举 大 约 有 
3.4x1038 种 方案 ， 如 果 计 算 机 一 秒 能 够 验证 一 亿 种 情况 ， 大 概 需要 
1.08x10 年 才能 算出 来 ， 这 是 不 可 行 的 。 


这 种 情况 下 ， 遗 传 算 法 就 显示 出 优势 来 了 。 下 面 介绍 在 6 个 物品 的 
情况 下 的 求解 方法 。 


1. 基 因 编 码 


一 共 6 种 物品 ， 每 种 物品 的 有 无 都 可 以 作为 独立 的 一 个 基因 片段 ， 
如 表 10-15 所 示 ° 


表 10-15 ”基因 片段 


染色 体 


1 1 1 1 1 1 111111 


一 共 是 6 位 。 假 如 只 有 物品 2、 物品 3 和 物品 6， 则 染色 体 是 
011001 ° 


2. 设 计 初 始 群 体 


为 了 计算 方便 设置 初始 群体 为 4 个 初始 生物 个 体 ， 随 机 产生 。 


100100， 对 应 物品 1、 物 品 4 存在 。 


101010， 对 应 物品 1、 物 品 3、 物 品 5 存 在 。 


010101， 对 应 物品 2、 物 品 4、 物 品 6 存 在 。 


101011， 对 应 物品 1、 物 品 3、 物 品 5、 物 品 6 存在 。 


3. 适 应 度 计 算 


适应 度 计算 首先 要 用 一 个 适应 度 的 函数 来 做 标尺 。 


设计 适应 度 的 函数 为 物品 总 价值 ， 那 么 4 个 个 体 各 目 适 应 度 结果 如 
下 。 


基因 100100=15+45=60 。 


基因 101010=15+35+55=105 ° 


基因 010101=25+45+70=140 ° 


基因 101011=15+35+55+70=175。 


在 这 里 不 要 起 记 物品 本 映 还 有 重量 ， 所 以 重量 也 要 作为 判断 标准 
之 一 ， 各 日 的 重量 分 别 如 下 。 


基因 100100=10+25=35 ° 


基因 101010=10+20+30=60。 


基因 010101=15+25+35=75 ° 


基因 101011=10+20+30+35=95。 

基因 101011 的 重量 显然 已 经 超过 了 要 求 的 80 公 斤 而 直接 被 淘汰 。 
这 样 还 剩 下 : 

基因 100100， 适 应 函数 为 60。 

基因 101010， 适 应 函数 为 105。 

基因 010101， 适 应 函数 为 140。 


先 把 适应 函数 求 和 ，60+105+140=305。 下 面 进 行 一 个 用 类 似 轮 盘 
赌 来 进行 避 选 的 过 程 。 
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轮 副 财 是 一 种 赌博 游戏 ， 如 图 10-23 所 示 ， 整 个 游戏 道具 是 一 个 大 
木 盘 ， 可 以 进行 旋转 。 木 盘 上 刻 着 很 多 小 格 和 于， 每 个 小 格子 上 有 数 
F, ERANGI, BAW) eer ae ROS TO SEDET [8] 
A ^ FERRE, “PR ABIS BOT DA ER BI RAE SAS o 
从 古典 概 型 来 看 ， 每 个 格子 的 胜率 应 该 是 一 样 的 。 


现在 想象 一 下 ， 这 个 轮 盘 上 有 305 个 格子 ， 其 中 基因 100100 作 为 一 
个 玩家 选取 了 其 中 的 60 个 小 格子 ， 基 因 101010 作 为 一 个 玩家 选用 了 105 
个 小 格子 ， 基 因 010101 作 为 一 个 玩家 选择 了 140 个 小 格子 ， 分 别 作 为 目 
己 押 注 的 赌 点 。 

转动 4 次 一 一 这 个 推荐 为 每 一 代 个 体 的 数量 。 那 么 每 旋转 一 
次 ,“ 中 奖 * 的 这 个 基因 组 就 介 许 繁殖 一 次 ， 如 果 一 次 都 没 “ 中 奖 ” 那 么 这 
个 基因 将 无 法 得 到 延续 。 在 这 个 例子 里 ， 基 因 100100 每 次 被 六 选 的 概 
率 为 60/305， 基 因 101010 每 次 被 六 选 的 概率 为 105/305， 基 因 010101 每 
次 被 导 选 的 概率 为 140/305。 


这 里 计算 的 结果 为 ， 基 因 101010 和 基因 010101 各 繁殖 两 次 


4. 生 产 下 一 代 


基因 101010 和 基因 010101 在 成 功 被 六 选 后 ， 需 要 进行 基因 重组 来 
产生 下 一 代 。 计 算 过 程 如 表 10-16 所 示 。 


表 10-16 “计算 过 程 


个 体 染色 体 配对 | 交叉 点 位 置 | 交叉 结果 
3 101010 | ， 4 | 101001 
A 
010010 4 010101 4 010110 


两 个 被 六 先后 的 基因 进行 了 基因 重组 ， 其 中 一 对 从 第 三 位 后 面 断 
开 ， 尾 部 进行 了 交换 ， 另 一 对 从 第 四 位 后 面 断 开 ， 尾 部 进行 了 交换 。 
这 样 又 产生 了 4 个 不 同 的 基因 。 一 般 来 说 交叉 点 位 置 是 可 以 随机 选取 
的 。 如 图 10-24 叫 所 示 ， 两 段 不 同 的 基因 从 中 间断 开 后 进行 结合 ， 上 段 
的 前 半 部 和 下 段 的 后 半 部 结合 成 为 新 的 基因 ， 而 下 段 的 前 半 部 和 上 段 
的 后 半 部 结合 成 为 新 的 基因 。 


图 10-24 ”基因 重组 


在 基因 重组 之 后 是 可 以 有 一 个 基因 突变 的 过 程 的 ， 就 是 随机 把 一 
定 比 例 的 基因 里 的 某 一 位 或 者 某 几 位 做 变化 一 一 1 变 成 0，0 变 成 1° 这 
个 过 程 建议 还 是 取 法 一 般 的 生物 繁殖 过 程 ， 让 变异 的 基因 比率 低 一 些 
比较 好 ， 在 这 个 例子 里 没有 做 变异 
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基因 101101， 重 量 为 90， 价 值 EMKO 为 165， 直 接 淘汰 。 


基因 010010， 重 量 为 45， 价 值 《适应 函数 ) 7380 © 


基因 101001， 重 量 为 65， 价 值 《适应 函数 ) 为 120。 


基因 010110， 重 量 为 70， 价 值 〈 适 应 函数 ) 为 125。 


在 这 里 可 以 看 到 一 个 现象 ， 总 体 的 适应 函数 和 为 
80+120+125=325， 比 上 一 代 的 60+105+140=305 适 应 性 更 好 ， 狐 似 是 进 
化 了 ， 但 是 上 一 代 是 有 一 个 适应 函数 140 的 “ 超 强 基 因 个 体 " 的 ， 这 一 代 
却 没有 一 个 能 够 超越 。 


在 一 次 完整 的 计算 中 ， 和 迭代 过 程 可 能 会 经 历 几 十 代 甚 至 更 人 ， 如 
果 发 现 出 现 了 连续 几 代 适应 函数 基本 不 增加 或 者 甚至 反而 减少 的 情 
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“收敛 "这 个 词 如 果 没 有 在 算法 学 习 中 接触 过 ， 这 里 以 一 个 形象 的 
例子 来 说 明 ， 在 体重 秤 上 称 量 时 ， 当 人 站 上 去 时 ， 指 针 就 开始 抖动 ， 
抖动 幅度 越 来 越 小 ， 最 后 基本 稳定 在 一 个 值 。 稳 定 后 ， 读 取 这 个 数字 
印 可 。 假 设 体重 秤 称 量 是 有 算法 控制 的 ， 那 么 这 个 摆动 儿 下 很 快 焉 能 
稳定 在 一 个 值 的 就 是 收敛 性 比较 快 (比较 好 ) 的 算法 ;要 摆动 很 久 才 
能 稳定 的 就 是 收敛 性 比较 慢 (比较 差 ) 的 算法 ;如 果 摆 幅 随 着 时 间 的 
推移 反而 越 来 越 大 ， 那 收敛 性 融 非 党 不 好 ， 通 音 融 没有 解 。 


在 上 述 例 子 中 ， 可 以 就 此 结束 移 代 操作 ， 也 可 以 再 观察 一 代 到 两 
代 的 变化 。 收 敛 的 速度 会 因 很 多 因素 而 变化 ， 如 基因 位 的 长 度 、 基 因 
重组 时 的 方案 、 基 因 变 异 的 程度 、 每 一 代 产 生 个 体 的 数量 等 。 一 般 发 
生 适 应 函数 收敛 时 就 是 达 代 结束 时 。 而 在 迄 代 结 束 前 找到 的 最 优 的 解 
忠 是 要 的 解 。 


6. 注 意 事 项 


在 使 用 遗传 算法 的 时 候 请 注意 以 下 几 个 地 方 ， 这 几 个 地 方 是 可 以 
进行 调整 的 。 


(1) 初始 群体 。 初 始 群 体 的 数量 是 可 以 调整 的 ， 可 以 想象 ， 上 壕 
6 个 物品 的 背包 问题 的 极限 是 直接 生成 所 有 的 情况 ，28 也 就 是 64 个 个 体 
全 部 列 出 作为 初始 群体 。 但 是 这 毫 无 意义 ， 也 不 是 要 使 用 基因 算法 的 
目的 。 或 许可 以 考虑 初始 群体 的 数量 设置 为 N 个 ，N 为 当前 计算 机 最 大 


可 并 行 计 算 的 数量 ， 例 如 ， 是 8 核心 的 计算 机 ， 那 就 可 以 设置 为 8 个 个 
体 作为 初始 群体 。 在 每 次 产生 基因 后 把 不 同 的 计算 放 到 不 同 的 线程 中 
去 。 当 然 ， 这 也 要 视 并 行 对 算法 效率 的 改善 程度 而 定 。 此 外 ， 可 以 定 
性 考虑 ， 初 始 数 量 太 少 可 能 会 导致 在 同 量 空间 中 徐 盖 面积 过 小 而 导致 
收 化 到 了 非 最 优 解 束 终 止 了 算法 。 


(2) 适应 度 画 数 。 适 应 度 画 数 中 的 轮 盘 赌 算法 只 是 其 中 一 种 算 
法 ， 也 可 以 考虑 使 用 其 他 算法 进行 入 选 。 注 意 六 选 原则 钙 从 生物 多 样 
化 中 进行 挑选 。 所 以 淘汰 比较 弱 的 基因 有 是 可 以 的 ， 但 是 不 建议 淘汰 的 
LEBIARK S 


(3) 基因 重组 。 基 因 重 组 这 个 环节 是 变数 比较 大 的 。 断 开 的 位 置 
几乎 是 可 以 随意 进行 的 ， 如 上 述 例子 ， 一 个 6 位 长 度 的 基因 ，1-5 断 开 ， 
2-4 断 开 ，3-3 断 开 ，4-2 断 开 ，5-1 断 开 ， 都 是 可 选 的 方案 。 其 实在 一 次 
产生 后 代 的 过 程 中 是 可 以 允许 以 不 同 的 方案 产生 多 个 后 代 的 ， 如 两 个 
配对 的 基因 是 可 以 用 2-4 方 案 做 两 个 后 代 ， 同 时 再 用 4-2 方 案 做 两 个 后 代 
的 ， 产 生 4 个 后 代 是 可 以 的 。 这 样 会 市 来 更 大 的 基因 丰 刘 性 ， 但 是 同时 
也 要 注意 计算 量 如 果 发 生 增 长 ， 在 若干 代 以 后 您 怕 会 严重 影响 计算 性 
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另外 相信 读者 也 能 意识 到 ， 不 要 一 个 基因 目 身 和 目 身 去 做 重组 ， 
没有 意义 ， 因 为 挎 么 重组 还 是 自己 ， 没 有 任何 变化 。 


(4) 迭代 结束 。 这 个 算法 迭代 结束 的 判断 标准 因 人 而 异 ， 但 是 总 
体 的 原则 是 ， 如 有 果 连 续 观 察 几 代 都 没有 明显 的 适应 函数 的 增长 ， 那 就 
说 明 进 化 到 这 几 代 基本 “到 头 ” 了 “。 在 结束 迭代 时 ， 在 这 之 前 找到 的 最 
TUE LE BE Do B) fo DARE o 


对 于 育 包 问题 的 解 ， 在 这 里 也 同样 给 出 一 段 Python 代码 供 读者 参 
LE 


# coding-utf-8 
import random 
# 背 包 问 题 


# 物品 重量 价格 


[10. 


15]. 


[15. 


25]. 


[20. 


35]. 


[25. 


45]. 


[30. 


55]. 


[35. 


70]3 
# 终 止 界限 


FINISHED_LIMIT = 5 
# 重 量 界限 


WEIGHT_LIMIT = 80 
# 染 色 体 长 度 


CHROMOSOME_SIZE = 6 
TORY UC 


SELECT. NUMBER = 4 
max last = 0 
diff last - 10000 
CARE ` FUT H 


def is finished ( 


fitnesses). 


global max last 
global diff last 
max current = 0 
for v in fitnesses 


if v[1] » max current 


max current = v[1] 
diff = max current - max last 
if diff « FINISHED LIMIT and diff last « FINISHED LIMIT 


return True 
else. 


diff last - diff 
max last - max current 
return False 

# 初 始 染色 体 样 态 


def init () : 


chromosome_state1 = '100100' 
chromosome_state2 = '101010' 
chromosome_state3 = '010101' 
chromosome_state4 = '101011' 


chromosome_states 


[chromosome_state1 


chromosome state2. 


chromosome state3 


chromosome state4] 
return chromosome states 
# 计 算 适 应 度 


def fitness ( 


chromosome states). 


fitnesses - [] 
for chromosome state in chromosome states 


value sum = 0 
weight sum = 0 
for i. 


v in enumerate ( 


chromosome state). 


if int | 


weight sum += X[i + 1][0] 
value_sum += X[i + 1][1] 
fitnesses.append ( 


[value sum. 


weight_sum]) 


return fitnesses 
HIA 


def filter (| 


chromosome states. 


fitnesses). 


80 的 被 淘汰 


index = len ( 


fitnesses) 


- 1 
while index >= 0 


index -= 1 
if fitnesses[index][1] > WEIGHT_LIMIT 


chromosome_states.pop ( 


index 


fitnesses.pop ( 


index 


THES 


selected index - [0] * len 


chromosome states) 


for i in range ( 


SELECT. NUMBER) : 


j = chromosome states.index 


random.choice 


chromosome_states) ) 


selected_index[j] += 1 
return selected_index 
# 产 生 下 一 代 


def crossover ( 


chromosome states. 


selected index : 


chromosome states new - [] 
index - len | 


chromosome states) 


- 1 
while index >= 0 


index -= 1 


chromosome state = chromosome states.pop ( 


index 


for i in range 


selected_index[index]) : 


chromosome state x = random.choice ( 


chromosome states) 


pos - random.choice | 


range ( 


CHROMOSOME SIZE - 1) ) 


chromosome states new.append ( 


chromosome state[ 


pos] * chromosome state x[pos 


chromosome_states.insert ( 


index 


chromosome_state) 


return chromosome_states_new 
if name == ' | main_': 


# 初 始 群体 


chromosome_states = init () 


n = 100 
while n > 0: 


n -= 1 
# 适 应 度 计算 


fitnesses = fitness ( 


chromosome_states) 


if is finished | 


fitnesses) : 


break 
HE 


selected_index = filter 


chromosome states. 


fitnesses) 


chromosome states - crossover ( 


chromosome states. 


selected index) 


[[60. 


35]. 


[105. 


60]. 


[140. 


75]. 


[175. 


95]] 
# 2. 


[[60. 


35]. 


[105. 


60]. 


[80. 


45]. 


[90. 


501] 
# 3: 


[[95. 


55]. 


[115 


65]. 


[70. 


40]. 


[90. 


50]] 
# 4: 


[[760. 


40]. 


[70. 


40]. 


[150. 


85]. 


[115. 


651] 
# 5: 


[[115. 


65]. 


[115. 


65]. 


[115. 


65], 


40]] 

# ['100110' 
'100110' 
'100110' 


'100110'] 


求 出 的 [115，65] 就 是 要 求 的 解 ， 对 应 的 物品 是 1: [10, 15] ^ 4: [25，45]、5: 
[30, 55] ° 
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情况 则 判断 为 收 


的 收敛 条 件 是 连续 两 代 的 适应 函数 最 大 值 都 不 再 增加 ， 出 现 这 和 
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图 片 来 源 于 百度 图 库 。 


10.6.4 ” 极 大 值 问题 


在 遗传 算法 中 再 举 一 个 求 极 大 值 的 例子。 这 种 例子 也 是 比较 多 见 
的 ， 只 要 把 一 些 数据 关系 揪 述 成 男 数 之 后 束 会 有 一 些 求 极 大 值 或 者 极 
小 值 的 问题 。 


其 实 极 大 值 和 极 小 值 是 一 类 问题 ， 即 极 值 问题 ， 解 题 思路 也 是 一 
样 的 。 


假设 在 空间 里 有 一 个 函数 z=y sin (x) +x cos (y) ， 图 形 如 图 10- 


25 所 示 。 


图 10-25 z=y sin (x) *xcos (y) 的 图 形 


假设 这 是 一 个 地 区 中 的 地 形 图 ， 而 且 地 形 每 个 点 的 (x, y, z) = 
维 坐 标 是 可 以 用 z=y sin (x) *xcos (y) 这 个 函数 来 进行 描述 的 ， 如 果 
想 求 这 个 函数 在 x 位 于 [-10，10] 和 y 位 于 [10，10] 之 间 的 最 大 值 ， 怎 么 求 
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求 出 满足 两 个 偏 导 数 同时 为 零 的 x、y 的 解 ， 很 可 能 有 多 个 ， 把 所 有 的 
Xx、y 对 代入 z=y sin (x) +xcos (y) ， 求 出 的 (x, y, z) 就 是 驻 点 。 
每 个 驻 点 的 z 值 比较 大 小 ， 最 大 的 就 是 要 求 的 解 了 。 没 学 过 微 积分 的 朋 
友 也 移 别 着 急 ， 我 们 今天 介绍 的 不 是 这 种 微 积 分 领域 角 用 的 办 法 ， 还 
征 考 虑 用 壮 传 算法 的 思路 来 做 。 


可 以 想象 ， 在 这 个 地 区 无 规律 地 放置 很 多 人 ， 有 的 在 合 压 ， 有 的 
在 半山 腰 ， 有 的 可 能 已 经 在 山顶 或 者 山顶 附近 。 那 么 下 面 让 他 们 一 代 
一 代 生 生 不 妃 地 楷 殖 ， 凡 是 能 怜 得 更 高 的 就 留 下 。 有 了 这 个 思路 束 可 
以 按部就班 地 求解 。 


1. 基 因 编 码 
首先 这 里 的 基因 编码 问题 就 和 背包 问题 不 一 样 。 背 包 问 题 属于 离 


散 型 的 目 变 量 ， 一 个 物品 在 背包 里 要 么 有 要 么 没有 ， 即 便 是 128 个 物 
员 ， 也 知道 一 共生 有 212 种 情况 ， 基 因 编 码 最 多 用 128bit 也 束 够 了 。 


HH, 
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但 是 这 个 例子 中 ， 有 两 个 目 变 量 x 和 y， 这 两 个 自 变量 都 是 实数 。 
根据 实数 柚 密 性 原理 ， 在 [-10，10] 之 间 和 是 有 无 穷 多 个 实数 ， 没 有 办 法 
用 类 似 育 包 问 题 中 的 基因 编码 的 办 法 穷 举 所 有 的 实数 可 能 性 。 


但 是 ， 电 子 计算 机 在 做 所 有 实数 运算 时 其 实 是 没有 那么 精确 的 ， 
因为 本 号 用 电子 计算 机 来 计算 实数 网 旦 一 个 用 离 艇 解决 连续 ， 用 有 穷 


解决 无 穷 的 方案 ， 本 映 束 有 天 生 的 不 可 逾越 的 局 限 性 。 不 管用 64bit 还 
征用 128bit 描 述 一 个 实数 都 太 有 限 了 ， 所 以 需要 一 个 精度 限制 ， 也 就 是 
有 效 效 字 。 问 题 是 应 该 取 多 少 位 有 效 数字 ? 


理想 地 ， 对 于 有 效 数字 应 该 是 尽 可 能 多 取 ， 有 多 少 取 多 少 ， 但 走 
在 实际 生活 中 却 不 这 么 做 。 原 因 也 很 商 单 ， 多 取 有 效 数 字 本 来 是 为 了 
提高 精确 度 ， 降 低 误差 与 成 本 。 然 而 多 取 有 效 数 字 同 样 需要 更 多 的 成 
本 ， 而 多 出 的 有 效 数 字 的 增长 对 提高 收益 如 有 果 没 有 明显 的 好 处 ， 那 显 
然 取 太 多 有 效 数 字 反 而 是 不 划算 的 。 


例如 ， 在 平时 购物 时 取 到 元 小 数 点 后 2 位 就 够 了 ， 因 为 再 小 的 货 
单位 也 不 发 行 ， 再 往 后 标记 更 小 的 标价 单位 车 无 意义 。 一 些 大 宗 交 易 
的 物品 单价 通常 会 取得 比较 多 ， 如 小 米 手机 、iPhone 手 机 中 的 电子 元 
件 ， 很 多 出 三 单价 才 0.005 元 一 个 甚至 更 低 。 但 是 由 于 购买 量 巨 大 ， 一 
批 吏 是 以 千 万 个 原件 作为 单位 的 购买 量 ，1000 万 个 电子 元 件 就 是 50000 
元 人 民 币 了 ， 这 种 情况 下 取 4 位 小 数 束 有 意义 。 再 如 生产 CPU 用 的 高 纯 
侍 通常 是 99.999999999% 的 ， 纯 度 低 了 无 法 文 持 22nm 级 别 的 生产 工艺 。 
太阳 能 板 硅 板 就 不 需要 这 么 精细 了 ， 一 般 99.99% 就 能 满足 ， 如 果 超 过 
99.9999% 只 会 增加 成 本 。 


所 以 对 于 那些 无 法 感知 精确 的 ， 感 知 了 也 无 法 把 控 的 ， 把 控 了 也 
对 提高 效益 无 意义 的 ， 这 些 场 合 下 的 精度 提升 就 没 必 要 了 ， 在 生产 生 
活 中 可 酌情 进行 取舍 。 


再 回 到 上 述 例子 ， 如 果 人 允许 一 定 的 误差 ， 只 要 误差 足够 小 其 实 束 
已 经 能 够 满足 模型 的 需求 了 。 


假设 从 -10 到 10 之 间 指 的 是 一 个 20 公 里 的 地 带 ， 那 么 取 精 度 为 1 米 可 
以 理解 为 [-10.000，10.000] 这 个 区 间 范 围 ， 取 精度 0.1 米 就 可 以 理解 为 
[-10.0000，10.0000] 的 范围 ， 这 里 假设 1 米 的 精度 已 经 能 够 满足 误差 要 
求 ， 那 么 取 [-10.000，10.000] 作 为 取 值 范围 ， 这 样 无 限 就 变 成 有 限 了 ， 
这 里 实际 是 20001 种 取 值 。 


如 果 还 是 要 用 二 进 制 来 进行 基因 编码 应 该 选用 多 少 位 呢 ? 214 是 
16384, 215 是 32768， 因 为 这 里 有 20001 种 情形 ， 所 以 取 15bit 作 为 基因 
描述 ，x 和 y 都 用 15bit 的 基因 一 一 这 已 经 能 够 履 盖 所 有 的 设想 样本 。 


那么 下 一 个 问题 就 是 把 一 个 15bit 的 二 进 制 数字 映射 到 [-10.000， 
10.000] 这 个 区 间 里 去 。 用 第 一 位 作为 正 负 数 的 标识 ， 简 下 14bit 作 为 具 
体 数 字 的 标识 ， 这 样 这 个 15bit 的 数字 束 成 为 了 [-16383，0] 和 [0，16383] 
两 个 区 间 取 并 集 了 ， 注 意 集合 里 的 元 素 都 是 整数 。 再 把 每 个 数字 除 以 
16383 除 以 1000， 取 值 范围 就 被 压缩 在 [-10.000，10.000] 之 间 了 。 


注意 在 这 里 为 了 让 区 间 包 括 两 边 的 边界 点 ， 做 一 个 小 小 的 变换 。 


定义 F (x) 的 内 容 如 下 : x 是 自 变 量 ， 为 二 进 制 数字 ， 首 位 为 0 代 
表 正 数 ， 首 位 为 1 代表 负数 ， 函 数值 为 x 对 应 的 十 进 制 数字 。 那 么 融 完 


成 了 编码 到 整个 定义 区 间 上 的 映射 F (x) ， 最 后 表示 二 进 制 到 实数 值 
的 函数 H (x) 定义 如 下 : 


i OU rp 


H=] 16384 
19. £69 71 F(x)<0 
16 384 


但 是 这 里 有 两 个 问题 。 


IB: F (x) >0 和 F (x) <0 是 有 重合 部 分 的 ,， F (x) =0 究 竟 算 
谁 的 。 补 充 说 明 一 下 ， 这 个 写法 确实 是 不 够 严谨 ， 具 体 意 义 是 指 x 的 首 
位 是 0 还 是 1 的 情况 ， 是 0 那 就 算 F (x) >0， 是 1 那 就 算 F (x) <0， 因 为 
确实 后 面 14bit 都 是 0 的 情况 下 ， 不 管 首 位 是 0 还 是 1 代表 值 都 是 0 。 


F(x)41 


问题 2 O Tess AN” E S 分 别 构成 了 x 正 负 两 个 ， 但 是 区 间 
却 不 是 原来 说 的 [-10.000，10.000]， 变 成 了 [-10.000，0) 和 (0, 
10.000]，0 从 目 变 量 范 围 里 被 拿 掉 了 。 这 是 为 了 计算 方便 ， 但 是 由 于 确 
言 0 不 是 要 的 解 ， 不 管 是 x=0 还 是 y=0， 所 以 从 解 里 面 把 所 有 x=0 的 情况 
以 及 所 有 y=0 的 情况 都 去 除了 ， 这 个 变换 不 影响 最 终 求解 。 如 果 觉 得 不 
放心 ， 那 么 可 以 党 试 重新 构造 这 个 映射 关系 ， 把 [-10.000，10.000] 所 有 
HS EDS nz Sl] o 
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F(x)+1 


(000000100100100), = 292, ， 对 应 的 10， = 0.179 
16384 
下 (CO-1 
(111000100110110), = -12 598， 对 应 的 10. P = —7.690 
3 
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2. 设 计 初 始 群 体 

设计 初始 群体 是 第 二 个 要 解决 的 大 问题 。 

倾斜 一 下 看 这 个 小 世界 ， 如 图 10-26 所 示 ， 要 设置 一 些 初始 化 的 人 
让 他 们 一 代 一 代 繁 衍 后 代 ， 能 爬 得 更 融 的 束 继 续 观 察 ， 扑 不 高 的 就 不 
管 了 。 在 刚刚 设计 的 基因 里 其 实 有 两 条 基因 ， 一 条 是 x， 一 条 是 y， 这 


两 条 基因 各 有 15 个 基因 信息 点 ， 也 就 是 2 个 可 能 值 ， 随 机 产生 8 组 基 
因 ， 如 表 10-17 所 示 。 


3. 适 应 度 计算 


适应 度 在 这 个 场景 里 不 难 设计 ， 用 z=y sin (x) +xcos (y) 即 可 ， 


z 就 是 适应 度 。 
AETR 


在 这 个 场景 里 ， 在 每 一 代 都 可 以 让 1 个 染色 体 中 的 基因 X 之 间 和 基 
因 Y 之 间 进 行 组 合 ， 如 表 10-18 所 示 。 


we 


| 起 始 值 ，| 结束 值 : 


> |=10.0000 | 10.0000 | 


| y |=10.0000 | 10.0000 | 
z |=15.0569 | 15.0569 | 


图 10-26 z=y.sin (x) +x.cos (y) 的 图 形 
#210-17 8 组 基因 


染色 体 基因 Y 

1 | 000000100101001 | 101010101010101 | 5 | 100000100100101 | 101010101010101 
2 | or1o00100101100 | 001100110011001 | 6 | 101000100100100 | 111100001111000 
3 101010101010101 
a | oo00110100100100 | 1oorrooroono | s | 100110101101000 |  000011110000111 


表 10-18 基因 组 合 


染色 体 基因 X 基因 YY 组 合 后 代 基 因 


XA: 000000100101100 


1 000000100101001 101010101010101 1X+2X 
YA: 101010110011001 


XB: 011000100101001 


011000100101100 001100110011001 1Y+2Y 


YB: 001100101010101 
如 果 染 色 体 1 和 2 进行 结合 ， 那 么 : 


1 染色 体 的 X 基 因 的 前 7 位 和 2 染色 体 的 X 基 因 的 后 8 位 将 结合 。 


1 染色 体 的 Y 基 因 的 前 7 位 和 2 染色 体 的 Y 基 因 的 后 8 位 将 结合 。 


2 染色 体 的 X 基 因 的 前 7 位 和 1 染色 体 的 X 基 因 的 后 8 位 将 结合 。 


2 染色 体 的 Y 基 因 的 前 7 位 和 1 染色 体 的 Y 基 因 的 后 8 位 将 结合 。 


由 此 形成 XA、YA、XB、YB 4 个 后 代 基 因 ，XA 和 YA 将 成 为 新 的 
一 组 染色 体 ，XB 和 YB 将 成 为 新 的 一 组 染色 体 ， 形 成 两 个 完整 的 后 代 基 
因 染 色 体 组 。 


如 果 是 8 组 作为 初始 种 群 的 大 小 ， 就 有 Gs =3 种 组 合 方式 ， 而 每 一 
种 组 合 产生 2 个 后 代 ， 那 么 实际 上 第 一 代 以 后 加 产生 56 个 个 体 。 


这 56 个 个 体 的 适应 度 可 以 进行 排序 ， 只 取出 排名 前 8 的 个 体 。 


这 里 同样 可 以 允许 一 定 的 基因 突变 性 ， 在 8 个 已 洲 选 的 个 体 中 ， 随 
机 找到 两 个 个 体 ， 让 这 两 个 个 体 其 中 一 个 x 梁 色 体 发 生变 异 而 让 男 一 个 
y 染 色 体 发 生变 异 (这 个 例子 由 x 和 y 两 个 自 变 量 构 成 的 染色 体 页 巧 跟 人 


类 的 性 染色 体 同 名 ) 。 变 异 也 是 随机 改变 x 染色 体 中 的 某 一 位 ， 或 随机 
改变 y 染 色 体 中 的 某 一 位 。 


这 之 后 再 进行 两 两 重组 的 计算 ， 产 生 下 一 代 。 
这 里 注意 以 下 两 点 。 


(1) 断 开 点 的 位 置 。 理 论 上 ， 断 开 点 的 位 置 是 任意 的 ， 但 是 断 开 
点 靠 左 对 数值 影响 变化 大 ， 自 变量 “跳跃 "范围 也 就 大 ， 断 开 点 靠 右 对 
数值 影响 变化 小 ， 自 变量 “跳跃 "范围 也 就 小 。 


(2) 基因 变异 的 位 置 。 和 断 开 点 位 置 的 影响 是 完全 一 样 的 ， 同 样 
EFRA HREM WEK, BEAREN HRE Eh o 
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这 里 直接 看 迭代 计算 的 代码 和 执行 过 程 。 请 注意 ， 由 于 其 中 有 很 
多 随机 的 因素 ， 所 以 计算 的 过 程 结 果 可 能 会 不 一 人 怪 ， 达 代 的 代数 也 可 
能 不 一 致 ， 但 是 最 终结 果 应 该 都 是 一 样 的 。 


#coding=utf-8 
import random 
import math 

import numpy as np 
# 染 色 体 长 度 


CHROMOSOME_SIZE = 15 
# 判 断 退出 


def is_finished 


last_ 


last_ 


three) : 


= sorted 


three) 


if s[0] and s[2] 


return True 


else 


# 初 始 染 人 1 


return False 
色 体 样 态 


def init () : 


chromosome state1 


'101010101010101'] 


chromosome state2 


- s[0] < 0.01 * s[0]: 


['600000100101001', 


['011000100101100'. 


'001100110011001'] 
chromosome state3 


'101010101010101 ' ] 
chromosome state4 


'110011001100110'] 
chromosome state5 


'101010101010101 ' ] 
chromosome state6 


'111100001111000'] 
chromosome state7 


'101010101010101 ' ] 
chromosome state8 


'000011110000111'] 
chromosome states 


['601000100100101' , 


['6001101001001900', 


['100000100100101', 


['10100010010019060' , 


['101010100110100'. 


['100110101101000'. 


[chromosome statei 


chromosome state2. 


chromosome state3, 


chromosome state4. 


chromosome state5 


chromosome_state6 


chromosome_state7 


chromosome state8] 
return chromosome states 
# 计 算 适 应 度 


def fitness ( 


chromosome_states) : 


fitnesses = [] 
for chromosome_state in chromosome_states 


if chromosome state[0][0] == '1' 


-float ( 


int ( 


chromosome state[60][1.: 


/16384) 


else. 


float ( 


int ( 


chromosome state[0]. 


/16384) 


if chromosome state[1][0] == '1' 


-float | 


int ( 


chromosome_state[1][1 


- 1) 


/16384) 


else: 


float ( 


int ( 


chromosome state[1]. 


/16384) 


z = y * math.sin 


+ x * math.cos | 


fitnesses.append ( 


return fitnesses 
HH 


def filter ( 


chromosome_states, 


fitnesses) : 


#top 8 对 应 的 索引 值 


chromosome_states_new = [] 
topi fitness index = 0 
for i in np.argsort | 


fitnesses) 


-1]I 


8].tolist 0. 


chromosome states new.append ( 


chromosome states[i]) 


topi fitness index - i 
return chromosome states new. 


topi fitness index 
# 产 生 下 一 代 


def crossover | 


chromosome states). 


chromosome states new - [] 
while chromosome states 


chromosome state = chromosome states.pop ( 


for v in chromosome states 


pos - random.choice | 


range ( 


CHROMOSOME SIZE - 1) ) 


chromosome states new.append ( 


[chromosome state[0][ 


pos] + v[0][pos 


chromosome state[1][ 


pos] + v[1][pos 


chromosome states new.append ( 


[v[0][: 


pos] + chromosome_state[1] [pos 


Vv[9][: 


pos] + chromosome_state[1][pos 


return chromosome_states_new 
FEARS 


def mutation (| 


chromosome states). 


n = int ( 


5.0 / 100 * len ( 


chromosome_states) ) 


while n > 0: 


n -= 1 
chromosome_state = random.choice ( 


chromosome_states) 


index = chromosome states.index 


chromosome_state) 


pos = random.choice | 


range ( 


len ( 


chromosome_state) ) ) 


X = chromosome_state[0][ 


pos] + str ( 


int ( 


not int 


chromosome state[O][pos]) ) ) 


+ 
chromosome_state[0][pos+1 


y = chromosome_state[1][ 


pos] + str ( 


int ( 


not int 


chromosome_state[1][pos]) ) ) 


+ 
chromosome_state[1] [pos+1 


chromosome states[index] = [x. 


yd . 
if name == ' main_': 


chromosome states = init () 


last three - 
last num - 0 
n = 100 

while n > 0: 


[0] * 3 


n -= 1 


chromosome_states = crossover ( 


chromosome_states 


mutation 


chromosome_states 


fitnesses = fitness ( 


chromosome_states 


chromosome_states, 


topi fitness index = filter 


chromosome states, 


fitnesses) 


last_three[last_num] = fitnesses[topi fitness index] 
if is finished 


last three). 


break 
if last num »- 2 


M 
e 


last num 
else. 


last num += 1 
#X: 


7.698 974 609 38 y 


7.698 974 609 38 z 


8.795 289 238 25 
HX: 


-8.356 933 593 75 y 


-8.356 933 593 75 z 


11.350 199 424 9 


这 里 最 后 的 收敛 条 件 是 计算 每 一 代 的 适应 函数 最 大 值 并 记录 ， 


判断 最 近 3 代 的 最 大 值 如 何 


变化 。 如 果 最 近 3 代 的 适应 函数 最 大 值 相 比较 ， 第 一 大 的 〈 最 大 的 ) 比 第 三 大 的 (最 小 
的 ) 增益 小 于 1%， 那 么 就 判断 为 收敛 。 这 种 收敛 的 速度 非常 决 ， 大 概 3 到 4 代 就 可 以 收敛 


完毕 求 出 最 优 解 。 当 然 ， 这 个 部 分 同样 可 以 再 讨论 采用 更 为 考究 的 计算 方式 ， 有 兴趣 的 


读者 可 以 继续 研究 。 


请 注意 ， 在 执行 这 段 代 码 中 可 能 会 发 现 这 么 一 个 问题 : 有 的 时 


此 时 x 和 y 都 在 7.7 附 近 ， 就 像 例子 中 给 出 的 这 个 数字 ; 有 的 时 


候 z 值 会 收敛 到 8 .8 附近 ， 
候 z 值 会 收敛 到 11 .35 附 


近 ， 此 时 x 和 y 都 在 -8.35 附 近 。 从 这 两 种 不 同 的 解 来 看 ， 可 以 知道 后 者 应 该 是 正确 的 而 


前 者 是 不 正确 的 


从 图 10-27 中 可 以 看 出 ,圆圈 圈 住 的 位 置 就 是 (7.7，7 .7) 附近 的 点 ， 而 实际 上 正确 的 


解 在 方 框 圈 住 的 位 置 (-8.35, -8.35) 。 为 什么 会 出 现 这 种 现象 呢 ? 其 实 也 不 难 理 


解 ， 就 是 在 繁殖 下 一 代 时 又 出 现 一 次 播撒 的 情况 ， 但 是 播撒 不 够 均 习 ， 导 致 部 分 想到 “ 圆 


轿 山 "位 置 的 种 群 个 体 表现 格外 良好 ， 其 他 种 群 如 在 “ 方 框 山 “ 半 山居 


凡是 第 9 名 开外 的 都 被 淘汰 。 这 样 是 有 相当 的 概率 会 收敛 到 7 .7 附近 的 “圆圈 山 " 的 。 这 一 
类 的 问题 可 能 以 后 在 写 遗 传 算法 中 也 同样 会 遇 到 ， 请 读者 注意 。 


U^ D 
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图 10-27 z=y.sin (x) +x.cos (y) 的 图 形 


这 一 类 问题 可 以 考虑 以 下 两 个 解决 方法 。 


初始 种 群 扩大 化 。 


AN 


一 
| 


[| aetetits [结束 信 : | 


I «1o [30.0000 


[s |-1soseo [18000 


初始 种 群 可 以 不 止 8 个 ， 可 以 是 16 个 、32 个 ， 或 者 更 多 ， 总 之 就 是 一 开始 就 使 得 第 一 代 
有 足够 的 机 会 仆 到 “ 方 框 山 ”的 比较 好 的 位 置 去 。 


方法 二 


每 一 代 六 选 增加 名 额 。 


每 一 代 现 在 只 是 留 下 8 个 种 群 个 体 ， 同 样 的 ， 可 以 留 下 16 个 、32 个 ， 也 一 样 会 让 更 多 让 
到 “ 方 框 山 ” 较 高 位 置 的 对 象 存活 下 来 。 


这 两 种 方法 都 采用 之 后 是 可 以 让 找到 最 优 解 的 概率 大 大 增加 的 。 


10.7 Awyr 
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活 中 使 用 得 也 最 为 广泛 。 


应 该 注意 到 ， 大 部 分 的 分 类 算法 都 是 基于 统计 概率 的 分 类 算法 ， 
而 几 是 基于 统计 概率 的 分 类 算法 完 其 本 质 仍 然 是 贝 叶 斯 概率 体系 下 的 
分 类 原则 。 以 SVM 算 法 为 例 ， 要 找 超 平 面 来 做 类 别 的 区 分 ， 但 是 类 别 
区 分 的 原则 仍旧 是 根据 已 知 样本 的 特征 情况 ， 也 束 古 抽象 后 的 多 维 空 
间 回 量 信息 特征 来 做 分 类 标准 。 在 超 平面 确定 后 ， 对 新 的 待 分 类 样本 
仍然 是 根据 一 个 辐 量 的 特征 值 来 判断 其 属于 某 分 类 或 不 属于 菏 分 类 的 
概率 为 多 少 ， 究 竟 是 哪 一 种 更 高 。SVM 本 质 上 仍旧 是 根据 特征 向 量 在 
空间 的 分 布 来 拟 合 分 类 概率 。 在 判断 新 的 竺 分 类 样本 时 ， 如 采 竺 分 类 
样本 处 在 超 乎 面 附近 ， 那 就 仍然 征 一 个 模棱两可 的 样本 ， 有 征 一 个 归属 
或 不 归属 一 个 分 类 概率 相当 的 情况 。 


此 外 ， 有 误 判 的 问题 几乎 是 没 办 法 避免 的 ， 虽 然 这 个 结论 多 少 让 
人 觉得 有 点 诅 形 。 但 是 ， 只 要 算法 本 吴 的 成 本 和 误 判 帝 来 的 损失 在 一 
个 可 接受 的 范围 内 即 可 ， 千 万 不 要 过 于 纠结 高 精度 而 圳 足 不 前 。 


遗传 算法 在 数学 上 其 实 是 采用 梯度 下 降 的 方法 来 求解 问题 的 。 所 
谓 梯 度 在 第 8 章 介 绍 最 小 二 乘法 时 已 经 涉及 ， 只 是 当时 没有 这 人 么 提 S E 


最 小 二 乘法 时 设计 的 函数 Q_ (a, b) F, RAQA Ha MRR 
数 ， 其 实 也 可 以 看 成 z (x, y) ，z 是 用 x 和 y 来 表示 的 。 在 讨论 Q_(a， 
b) 的 极 值 时 ， 说 到 了 偏 微分 的 概念 ， 也 就 是 求 沿 着 a 轴 方 向 和 b 轴 方向 
的 多 组 剖面 上 的 切线 斜率 问题 ， 最 后 找到 两 个 方向 上 的 斜率 为 0 的 位 置 
作为 候选 点 。 这 个 结 末 是 通过 数学 上 求 偏 导数 的 方式 推导 计算 出 来 
的 。 而 梯度 下 降 的 方法 与 此 不 同 ， 它 的 思路 是 ， 不 求 仿 导数， 但 是 沿 


着 整个 曲面 “行进 *， 当 行进 同样 单位 距离 时 函数 值 变 化 大 ， 那 就 说 明 
PRK; 而 当 行 进 同 样 单位 距离 时 函数 值 变化 小 ， 那 就 说 明和 斜率 小 。 


当 行 进 一 次 函数 值 变 化 趋 近 0 时 ， 那 融 说 明 到 了 驻 点 附近 。 这 也 十 一 种 
很 巧妙 的 思路 。 在 极 大 值 问 题 求解 的 过 程 中 已 经 展示 过 这 种 方式 的 思 
路 了 。 


这 种 方式 在 地 理 地 形 图 上 的 表现 形式 如 图 10-28 所 示 。 


在 地 理 课本 上 会 有 地 形 图 ， 而 地 形 图 中 最 容易 让 人 产生 画面 感 的 
莫 过 于 等 高 线 图 。 图 10-28 上 用 方 框 圈 出 的 部 分 等 高 线 向 密 ， 表 示 地 形 
高 度 变化 快 ， 坡 度 陡 峭 ; 用 椭圆 轿 出 的 部 分 等 高 线 系 数 ， 表 示 地 形 高 
度 变 化 慢 ， 坡 度 平 缓 。 梯 度 下 降 法 实际 上 是 在 找 等 高 线 稀 焉 的 地 方 ， 
那 一 定 征 一 个 趋 于 平缓 的 地 珊 ， 要 么 在 谷 确 ， 要 么 在 峰 顶 。 这 束 是 樟 
度 下 降 法 的 意义 。 


分 类 属于 有 监督 的 学 习 过 程 ， 这 个 过 程 中 使 用 者 可 以 根据 经 验 以 
及 数学 推导 等 辅助 方法 给 机 右 一 些 指 导 ， 帮 助 机 右 竟 校 、 收 敛 、 去 噪 


等 ， 让 计算 变 得 更 加 快捷 ， 更 加 准确 。 


开 状 与 丘陵 类 似 ， 但 表面 平坦 (d) 盆地 一 一 中 间 低 ， 四 霹 为 出 丘 环绕 


(c) & 


(e) 3C — Hh RE, ERED 


图 10-28 地形 图 


第 11 章 ”关联 分 析 
在 学 习 完 阳 类 和 分 类 之 后 ， 补 充 性 地 讨论 一 下 关联 分 析 。 


关联 规则 也 是 人 类 在 认识 客观 事物 中 形成 的 一 种 认 知 模式 。 这 种 
关联 规 则 在 人 的 认 知 里 与 反射 类 似 。 如 在 小 时 候 不 小 心 被 针 扎 到 ， 会 
有 痛感 ， 这 样 针 刺 和 痛感 整 在 大 脑 里 有 了 这 种 关联 。 再 如 ， 小 时 候 在 
不 懂 任 何 电学 原理 时 也 可 以 发 现 按 下 电灯 开关 ， 电 灯 束 会 点 宫 ， 表 按 
一 次 ， 电 灯 束 会 关闭。 这 个 对 于 电灯 开关 的 动作 就 和 电灯 腕 炎 的 事件 
形成 了 关联 关系 。 这 就 是 人 在 认识 事物 的 过 程 中 在 认 知 中 所 建立 的 关 
联 规 则 ， 即 通过 与 客观 世界 互动 ， 发 现 事物 之 间 存 在 的 依赖 或 者 因 采 
RR ° 


本 章 讨论 的 关联 分 析 应 该 说 是 数据 挖掘 教程 体系 里 最 为 经 典 的 部 
分 之 一 ， 也 是 壬 试 在 数据 中 发 现 依 赖 或 者 因 采 关系 的 方法 。 这 其 中 还 
有 一 个 更 为 经 典 的 案例 ， 即 几乎 在 每 本 BI 〈 商 业 智能 ) 教材 或 者 数据 
挖掘 教材 里 都 会 讲 到 的 “啤酒 和 原 布 ? 案 例 。 


据说 事情 发 生 在 20 世 纪 80 年 代 的 美国 沃尔玛 ， 销 售 经 理 经 过 人 研究 
零售 记录 发 现 啤酒 和 尿布 会 同时 出 现在 很 多 购物 记录 里 ， 令 人 百 思 不 
得 其 解 。 经 过 观察 发 现 ， 在 这 个 地 区 有 很 多 年 轻 的 父亲 会 时 党 光顾 超 
市 ， 在 超市 里 为 孩子 购买 尿布 的 同时 也 会 为 自己 买 上 一 些 啤酒 。 从 
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进而 让 啤酒 和 尿布 的 销量 进一步 提高 。 


里 然后 来 也 有 一 些 专家 说 这 个 案例 十 假 的 ， 根 本 没 那 么 回 事 ， 完 
全 是 BI 广 品 的 销售 人 员 杜 所 出 来 的 。 不 论 该 案例 的 真 假如 何 ， 这 种 研 
究 方 式 却 是 在 零售 行业 得 到 了 比较 广泛 的 应 用 ， 这 种 分 析 也 称 作 “购物 
”分 析 。 我 们 一 起 来 看 一 下 ， 这 个 分 析 过 程 是 怎么 实现 的 。 


ES 


11.1. 频 尝 模式 和 Apriori 算 法 


一 个 超市 里 每 天 有 很 多 的 购物 记录 ， 很 多 大 卖场 每 天 甚至 可 能 
数 万 笔 交 易 ， 为 了 示例 的 方便 假设 一 共有 5 个 购物 记录 。 


记录 1: 


(UE, GRAN. BX, WE, RD, TER) 


记录 2: 


GW, AW, TII, RY) 


记录 3: 


(牙刷 ， 奶 糖 ， 食 盐 ， 冷 冻 鸡 肉 ， 卫 生 纸 ) 


记录 4: 


A, KEA, AW, MF, EE, WEER) 


记录 5: 


RI, 173657] 88, URTR) 


每 个 记录 相当 于 在 超市 发 生 的 一 笔 结算 ， 一 个 购物 者 把 篮子 里 的 
商品 都 一 起 扫 码 付 账 。 


11.1.1 频繁 模式 


目 先 要 明确 一 点 ， 就 古 在 每 个 购 买 记录 中 出 现 的 各 种 单 品 其 实体 
现 的 是 一 种 组 合 的 性 质 。 也 束 是 说 ， 消 费 者 在 购买 了 一 种 单 品 的 同时 
又 购买 了 另 一 种 单口 。 而 且 ， 这 些 单 品 的 组 合 在 记录 中 是 无 序 的 ， 也 
就 是 无 法 知道 在 记录 1 中 究竟 是 先 “购买 * 了 啤酒 然后 诱 使 他 叉 “ 购 买 * 了 
香烟 ， 还 是 先 “ 购 闫 "了 香烟 后 来 义 购 来 了 啤酒 。 因 此 只 能 研究 一 个 无 
序 的 组 合 ， 这 种 组 合 束 叫做 “模式 ”。 


这 些 模式 里 ， 有 的 出 现 频率 很 低 ， 有 的 出 现 频率 很 高 ， 一 般 认 为 
频率 较 高 的 通常 更 有 指导 意义 ， 这 种 高 频率 的 模式 就 被 称 作 “频繁 模 
Ti " 
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存储 以 备 实 验 。 也 可 以 尝试 使 用 数组 、 内 存 回 量 等 其 他 形式 ， 这 些 并 
“影响 Apriori 算 法 的 结 采 。 购 物 记 录 表 Buy_list 如 表 11-1 所 示 。 


表 11-1 购物 记录 表 Buy-list 


流水 号 (Serial) 


单 品 类 别 (Type) 


流水 号 (Serial) 


单 品 类 别 (Type) 


0001 啤酒 0002 香烟 
0001 香烟 0002 巧克力 糖 
0001 白菜 0002 酸奶 


0001 


nd 


酸奶 


酸奶 


0001 


AE AC 


巧克力 糖 


红酒 


味精 


假设 已 经 把 这 个 信息 变 成 了 一 张 表 Buy_list， 表 至 少 有 两 个 字段 
Serial 和 Type。 注 意 ， 在 数据 仓库 里 ， 通 常 Type 这 个 字段 是 一 个 类 别 编 
人 码 ， 而 不 是 一 个 具体 的 汉字 品名 描述 。 


11.1.2 ”支持 度 和 置信 和 度 


刚刚 介绍 过 一 个 频繁 模式 的 概念 ， 即 一 般 认 为 频率 较 高 的 模式 叫 
做 频繁 模式 。 衡 量 频 率 的 指标 有 了 两 个 ， 一 个 是 支持 度 ， 一 个 是 置信 上 度 


这 两 个 指标 分 别 指 的 古 这 种 模式 的 有 用 性 和 确定 性 。 设 置 门限 “最 
小 文 持 度 "和 "最 小 置信 度 ”， 文 持 度 和 置信 度 同 时 高 于 这 两 个 门限 束 可 
以 认为 是 频繁 模式 了 。 


例如 ， 购 买 啤酒， 香烟 ) 模式 的 支持 度 为 40%， 那 就 是 说 所 有 
的 购买 记录 里 (例子 里 是 5 个 ) ， 有 40% 的 购买 记录 都 包含 这 种 模式 。 


置信 度 是 有 " 方 癌 性 ?的 ， 如 采 说 购买 啤酒 的 记录 里 有 100% 的 记录 
都 购买 了 香烟 ， 那 么 就 说 购买 啤酒 后 购买 香烟 的 置信 和 度 为 100%; 反问 
地 看 ， 如 果 购 买 了 香烟 的 记录 有 67% 的 记录 都 购买 了 啤酒 ， 那 么 就 说 
购买 香烟 后 购买 啤酒 的 置信 和 度 为 67% 。 


为 了 表达 人 简便， 也 常 记录 如 下 : 
啤酒 => 香 烟 [support=40%; confidence=100%] 


香烟 => 啤 酒 [support=40%; confidence=67%] 


用 SQL 语句 能 够 很 快 地 算出 一 个 模式 的 文 持 度 和 置信 度 。 


啤酒 => 香 烟 ， 文 持 度 计算 的 代码 如 下 : 


SELECT 
TRANSACTION COUNT.COUNT NUMBER/ TRANSACTION ALL.COUNT NUMBER 
FROM ( 


SELECT COUNT | 


COUNT NUMBER 
FROM 
( 


SELECT Serial FROM Buy list WHERE Type= 啤酒 


R1 
INNER JOIN 
( 


SELECT Serial FROM Buy list WHERE Type=' iii 


R2 
ON 
R1.Serial=R2.Serial) 


TRANSACTION_COUNT 
INNER JOIN ( 


SELECT COUNT | 


DISTINCT Serial) 


COUNT_NUMBER 
FROM 
Buy_list) 


TRANSACTION_ALL 
ON 1-1. 
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R1 是 找 出 所 有 有 啤酒 的 Serial，R2 是 找 出 所 有 有 香烟 的 Serial， 这 
样 TRANSACTION_COUNT.COUNT_NUMBER 就 是 同时 既 有 啤酒 又 有 
香烟 的 Serial 的 数量 了 。 后 面 TRANSACTION_ALL.COUNT_NUMBER 
是 所 有 购买 记录 的 数量 。 两 者 相 除 得 到 支持 度 。 


啤酒 => 香 烟 ， 置 信 度 计算 的 代码 如 下 : 


CREATE TABLE TEMP ( 


R1 Serial VARCHAR ( 


64). 


R2 Serial VARCHAR (| 


64) ) 


AS 
SELECT * 
FROM ( 


SELECT Serial R1 Serial FROM Buy list WHERE Type=' "啤酒 


R1 
LEFT JOIN ( 


SELECT Serial R2 Serial FROM Buy list WHERE Type=' yi 


R2 
ON R1.R1_ Serial-R2.R2 Serial. 


SELECT R2.R2_COUNT/R1.R1_COUNT 
FROM ( 


SELECT COUNT | 


R2 COUNT 
FROM 
TEMP 
WHERE R2 Serial IS NOT NULL 


R2 
INNER JOIN ( 


SELECT COUNT | 


R1 COUNT 
FROM 
TEMP) 


R1 
ON 1-1. 


简单 解释 一 下 ， 前 面 的 部 分 是 建造 一 个 只 有 两 列 的 数据 表 ， 第 一 
列 R1 是 所 有 有 啤酒 的 Serial， 第 二 列 R2 是 所 有 有 香烟 的 Serial，LEFT 
JOIN 后 会 得 到 一 个 R2 有 可 能 产生 NULIL 的 数据 视图 。 第 二 个 SQL 里 前 
半 部 分 的 R2.R2_COUNT 是 为 了 求 出 有 啤酒 且 有 香烟 的 Serial 数 量 ， 后 
半 部 分 的 R1.R1_COUNT 是 为 了 求 出 所 有 含有 啤酒 的 Serial 数 量 。 两 者 
相 除 得 到 置信 和 度 。 
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优化 SQL 的 写法 。 


在 这 里 请 注意 ， 在 生活 中 各 超市 各 卖场 的 购物 篮 分 析 场 景 里 ， 文 
手 度 和 置信 度 都 远 没 有 上 述 例子 这 么 高 。 很 大 数量 的 文 持 度 和 置信 和 度 
可 能 都 只 有 百 分 之 零 点 几 或 者 百 分 之 零 点 零 几 。 现 在 再 来 回答 刚刚 的 
那个 问题 “ 文 持 度 和 置信 和 度 多 高 才 算 高 呢 ? "在 比较 成 熟 的 行业 ， 或 者 
有 行业 专家 可 以 请 教 的 时 候 ， 可 以 寻求 行业 专家 的 帮助 ， 让 他 们 设置 
一 个 合适 的 值 。 如 果实 在 没有 行业 专家 可 以 咨询 ， 可 以 尝试 在 所 有 商 
品 中 找 出 所 有 的 模式 ， 会 发 现 有 一 些 模式 的 文 持 度 和 置信 度 同时 都 比 
其 他 高 很 多 ， 这 时 可 以 考虑 用 所 有 模式 的 文 持 度 的 平均 值 和 置信 度 的 
平均 值 作为 参考 ， 适 当 提 高 一 些 作 为 国 值 做 过 减 。 这 样 过 滤 下 来 的 模 
式 融 可 以 作为 频 索 模式 进行 进一步 研究 。 


如 条 单 纯 文 持 度 高 或 者 置信 度 高 能 否 直接 被 认为 是 频 迷 模式 呢 ? 


如 果 文 持 度 高 置信 度 低 ， 说 明 这 两 种 情况 确实 同时 出 现 ， 但 是“ 转 
化 率 ” 可 能 比较 低 。 而 如 有 果 文 持 度 比较 低 ， 但 古 转 化 率 比较 高 ， 说 明 这 
种 模式 在 所 有 的 模式 里 很 乎 稼 ， 甚 至 可 能 不 能 算 “ 颍 长 ”。 所 以 基于 这 
样 的 原因 ， 通 党 还 是 会 选择 文 持 度 和 置信 度 都 高 于 国 值 的 门限 的 模式 
TERREA ° 
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刚才 讲 过 ， 找 出 频繁 项 集 实际 是 找 出 同时 满足 最 小 文 持 度 和 最 小 
置信 度 的 模式 。 在 Apriori 算 法 的 观点 中 ， 这 个 求解 过 程 要 分 以 下 几 个 
步骤 。 


步骤 1: 先 设 置 一 个 最 小 支持 度 作为 阔 值 门限 值 进行 扫描 ， 因 为 对 
同时 过 滤 最 小 文 持 度 和 最 小 置信 度 这 两 个 操作 来 说 ， 最 小 文 持 度 的 查 
找 更 为 简单 一 些 。 假 设 设置 的 最 小 支持 度 为 40% (也 可 以 尝试 设置 为 其 
他 值 ) 。 

IUE. 扫描 所 有 满足 最 小 支持 度 的 单 品 。 这 个 步骤 的 逻辑 很 简 
单 ， 假 设 有 一 个 单 品 和 男 一 个 单 品 组 合 的 模式 满足 最 小 支持 度 40%， 那 
该 单 品 首先 必须 在 所 有 购买 记录 中 出 现 的 概率 大 于 等 于 40% 才 有 可 能 
这 是 一 个 必要 条 件 。 所 以 扫描 所 有 满足 最 小 支持 度 的 单 品 ， 找 出 大 于 
等 于 40% 的 。 


在 本 例 中 ， 单 品 文 持 度 ， 如 表 11-2 所 示 。 


表 11-2 BASE 


单 品 类 别 (Type) 支持 度 (Support) 单 品类 别 (Type) 支持 度 (Support) 

啤酒 40% 奶 糖 20% 
香烟 60% Li 20% 
白菜 20% 令 冻 鸡肉 20% 
鸡蛋 20% 一 次 性 酒杯 20% 
酸奶 60% 瓜子 20% 
AEA 40% IEE 20% 
红酒 20% TESS Ar 20% 
15 y£ 2] fà 4096 味精 20% 
牙刷 20% 


过 滤 出 候选 单 品 ， 即 满足 最 小 文 持 度 40% 的 单 品 ， 如 表 11-3 所 示 。 


表 11-3 ”支持 度 大 于 等 于 40% 的 单 品 


单 品 类 别 (Type) 支持 度 (Support) 单 品 类 别 (Type) 支持 度 (Support) 
啤酒 | 40% | [AA | 40% 
TIT | 60% | 巧克力 糖 | 40% 
酸奶 60% 


在 这 个 过 程 中 可 以 发 现 ， 大 量 小 于 40% 的 单 品 已 经 被 过 滤 挥 了 ， 
个 过 程 在 算法 中 叫 盘 校 。 再 逐 级 组 合 得 找 模式 时 ， 有 很 多 的 单 品 可 以 
完全 秆 之 不 理 了 。“ 藤 村 法 ”是 算法 科学 中 一 个 比较 重要 的 思路 ， 在 很 
多 算法 中 有 广泛 的 应 用 ， 有 即 利 用 数学 特性 或 一 些 其 他 技巧 过 滤 挥 那些 
没 必 要 计算 的 情况 ， 用 来 降低 算法 的 时 间 复 杂 度 。 


步 怠 3: ”查找 满足 条 件 的 2 项 模式 。 根 据 已 经 过 滤 出 的 单 品 ， 组 合 
一 下 看 候选 的 2 项 模式 有 了 哪些， 然后 在 前 面 的 数据 里 具体 比 对 一 下 ， 赴 
人 否 存 在 以 及 看 有 几 个 。 


啤酒 和 和 香烟， 出现 过 2 次 ，2/5=40%。 


啤酒 和 酸奶 ， 出 现 过 1 次 ，1V5=209%。 


得 到 表 11-4 (候选 的 2 项 模式 ) 。 


表 11-4 ”满足 条 件 的 2 项 模式 


2 项 模式 (Type, Type) 支持 度 (Support) 2 项 模式 (Type, Type) 支持 度 (Support) 
啤酒 ， 香 烟 40% Q4. TER 2096 
啤酒 meu 20% 香烟 ， 巧 克 力 糖 20% 
啤酒 ， 卫 生 纸 20% 酸奶 ， 卫 生 纸 20% 

了 啤酒， 巧克力 糖 0% 酸奶 ， 巧 克 力 糖 40% 
AH. neu) 40% DAAC, Fy st 0% 


在 所 有 已 经 滤 出 的 2 项 模式 中 ， 找 出 满足 最 小 支持 度 的 2 项 模式 
(本 例 中 为 满足 最 小 支持 度 为 40% 的 2 项 模式 ) ， 如 表 11-5 所 示 。 


目前 只 剩 下 3 个 2 项 模式 了 。 


步骤 4: 查找 满足 条 件 的 3 项 模式 。 这 个 过 程 与 步 又 3 类 似 ， 注 意 现 
在 还 剩 下 哪些 单 品 是 有 可 能 的 。 假 设 有 一 个 单 品 和 另外 两 个 单 品 组 合 
的 模式 满足 最 小 支持 度 40%， 那 么 这 两 个 单 品 组 合 而 成 的 2 项 模式 同样 
必须 满足 文 持 度 40% 。 


表 11-5 满足 最 小 支持 度 的 2 项 模式 


2 项 模式 (Type, Type) 


啤酒 ， 香 烟 
香烟 ， 酸 奶 
酸奶 ， 巧 殉 力 糖 


只 剩 下 表 11-5 中 的 啤酒 ， 香 烟 ， 酸 奶 ， 


候选 的 2 项 模式 如 表 11-6 所 示 。 


支持 度 (Support) 
40% 
40% 
40% 


巧克力 糖 这 4 个 单 品 了 。 


表 11-6 ”候选 的 2 项 模式 


2 项 模式 (Type, Type) 
啤酒 ， 香 烟 
香烟 ， 酸 奶 


酸奶 ， 巧 克 力 糖 


和 前 面 一 样 做 一 个 香 卡 儿 乘 积 ， 候 选 


支持 度 (Support) 
40% 
40% 
40% 


的 3 项 模式 如 表 11-7 所 示 。 


表 11-7 候选 的 3 项 模式 


3 项 模式 (Type, Type, Type) 


啤酒 ， 香 烟 ， 酸 奶 
ji iP , fr 45 9 19 i, JJ fit 
Qd. NOUS, 15957] 9 


支持 度 (Support) 
20% 
0% 
0% 


观察 发 现 ， 到 目前 为 止 ， 所 有 候选 的 3 项 模式 都 “阵亡 ”了 ， 全 都 不 


满足 40% 的 门限 要 求 。OK， 那 束 结 束 ， 算 到 这 里 为 止 ， 因 为 我 们 也 不 


可 能 找到 满足 条 件 的 3 项 、4 项 以 及 以 后 任何 多 种 符合 条 件 的 频繁 模式 
了 。 如 果 大 家 对 这 个 算法 的 学 术 性 表达 感 兴趣 ， 可 以 阅读 《数据 挖掘 
概念 与 技术 〈 原 书 第 3 版 ) 》 (Jiawei Han、Micheline Kamber ` Jian Pei 
X) 的 第 161 页 到 164 页 。 


回 过 头 来 介绍 上 述 备 卡 儿 积 是 起 么 做 的 。 如 琳 没 学 过 第 卡 儿 积 的 
朋友 请 往 下 看 ， 学 过 的 请 目 动 跳 过 。 


我 们 从 1 项 ( 单 品 ) 到 2 项 的 时 候 是 怎么 做 的 呢 ? 
先 从 所 有 1 项 中 罗列 出 所 有 的 单 品 : 

1 项 集合 = (HA, BI, ERES TÆR, Fe) 
2 项 集合 =1 项 集合 x1 项 集合 


注意 ;第 卡 儿 积 就 古 用 x 号 两 边 的 两 个 集合 中 的 元 素 去 做 一 对 一 的 
循环 匹配 ， 匹 配 结果 列表 就 是 笛 卡 儿 积 的 乘积 (结果 ) 。 


2 项 集合 =1 项 集合 x1 项 集合 


= (H, AW, RI, TER, BED < (啤酒 ， 香 烟 ， 酸 
奶 ， 卫 生 纸 ， 巧 克 力 糖 ) 


= ( 啤酒， 啤酒) ， 啤酒， 香烟 ) ， (啤酒 ， 酸 奶 ) ， ( 啤 
EB. LH, (GN, a). (香烟 ， 啤 酒 ) ， (香烟 ， 香 


烟 ) ， (香烟 ， 酸 奶 ) ， (香烟 ， 卫生纸 ) ， 香烟， 巧克力 糖 ) ， 
(酸奶 ， 啤 酒 ) ， RD, EW), RD, RD), (酸奶 ， 卫 生 


纸 ) RD, TEE) ， TER, EW), (卫生 纸 ， 香 
AR) ， TÆR, RI), (TÆR, TÆR) ， (了 卫生纸， 巧克力 
58) , (巧克力 糖 ， 啤 酒 ) ， (巧克力 糖 ， 香 烟 ) ， (巧克力 糖 ， 酸 
奶 ) ， (Sapte, TEAR) ， (巧克力 糖 ， 巧 克 力 糖 ) ) 


从 标准 的 第 卡 儿 乘积 中 ， 得 到 了 上 述 25 个 2 项 模式 。 但 是 并 非 所 有 
的 结果 都 有 意义 ， 啤酒 ， 啤 酒 ) 这 样 的 结果 虽然 在 笛 卡 儿 乘 积 上 有 是 
有 意义 的 ， 但 是 在 业务 解释 中 是 没有 意义 的 ， 因 为 谁 都 不 会 去 研究 买 
了 “啤酒 ?又 买 了 “啤酒 ”的 情况 。 此 外 ， (啤酒 ， 香 烟 ) 和 (香烟 ， 啤 
酒 ) 只 需要 保留 一 个 即 可 ， 因 为 组 合 不 关心 方向 问题 。 这 样 就 留 下 了 


候选 的 2 项 集合 : 


( 啤酒， 香烟) ， (啤酒 ， 酸 奶 ) ， (BYR, TER) ， ( 啤 
酒 ， 巧 元 力 糖 ) ， 


(香烟 ， 酸 奶 ) ， EW, TÆR) ， EW, DEIR), 
(酸奶 ， 卫 生 纸 ) ， 


酸奶， 巧克力 糖 ) ， (了 卫生纸， 巧克力 糖 ) ) 


一 其 10 个 。 


的 : 


iB. 


最 后 这 个 3 项 集合 的 算法 和 2 项 的 算法 上 略 显 不 同 ， 但 是 本 质 是 一 样 


3 项 集合 =2 项 集合 x2 项 集合 =2 项 集合 x1 项 集合 x1 项 集合 


= ( QUE, F), H, RD), 啤酒， 卫生纸) ， F 
巧克力 糖 ) ， EW, RI) ， (香烟 ， 卫生纸 ) ， H, 5 


AIRD ， (RWS, TEW ， MP, Fe) ， (LER, 75 
SEA SR) ) 


iB. 


x ( (啤酒 ， 香 烟 ，， (啤酒 ， 酸 奶 ) ， (啤酒 ， 卫 生 纸 ) ， 0X 
巧克力 糖 ) ， (香烟 ， 酸 奶 ) ， (香烟 ， 卫生纸) ， H, 5 


AIRD , P, TEW ， MP, Te) ， (DER, 75 
H) ) 


2. 


AK 


= (啤酒 ， 香 烟 ) x (啤酒 ， 香 烟 ; ， (啤酒 ， 香 烟 ) x (啤酒 ， 酸 
(RES, EAM) x (ERE, TÆR) , 


= (EE, GRAN, YE) , (啤酒 ， 香 烟 ， 香 烟 ) ， (啤酒 ， 香 


, FRE) ， HH, FA, RD) ，.… 


这 种 方式 还 是 写成 第 卡 儿 乘积 更 容易 让 人 接受 ， 展 开 后 表述 的 内 
多 


o 


4 项 集合 以 此 类 推 。 


这 样 实际 上 求 出 的 是 所 有 的 满足 文 持 度 和 置信 度 的 频繁 项 集 ，2 
项 、3 项 ..…... 一 直到 N 项 ， 只 要 它们 满足 设置 的 文 持 度 和 置信 度 ， 就 都 
能 被 计算 出 来 。 


11.1.4 KEE MATET 


刚刚 的 例子 里 写 了 两 段 SQL 语 句 ， 主 要 是 为 了 验算 “啤酒 => 香 
烟 ? 的 文 持 度 和 置信 度 。 剩 下 的 整个 算法 实际 是 使 用 了 SQL 语言 进行 完 
整 文 持 度 和 置信 度 的 计算 算法 的 实现 。 


如 果 要 计算 所 有 模式 的 支持 度 和 置信 度 ， 显 然 是 不 能 用 这 样 的 方 
式 的 ， 确 实 不 会 列 出 很 多 的 一 个 一 个 的 单口 ， 然 后 一 个 一 个 地 代入 去 
求 它们 的 支持 度 。 可 以 试 着 用 其 他 的 SQL 语 句 来 求 出 所 有 模式 的 文 持 
度 和 置信 度 ， 其 实 并 不 难 。 


首 移 布 望 有 一 个 表 能 够 构造 出 穷 举 所 有 模式 的 方式 ， 代 码 如 下 : 


CREATE TABLE PATTERNS 


Serial VARCHAR 


Typei VARCHAR | 


64). 


Type2 VARCHAR | 


64) ) 


AS 
SELECT R1.Serial Serial 


R1.Type1 Type1 


R2.Type2 Type2 
FROM | 


SELECT Serial. 


Type Type1 FROM Buy list 


R1 
INNER JOIN (| 


SELECT Serial. 


Type Type2 FROM Buy list) 


R2 
ON R1.Serial=R2.Serial AND R1.Type1<>R2.Type2 


现在 得 到 一 个 PATTERNS 表 (311-8) 了 ， 这 个 表 有 两 列 ， 里 面 是 
所 有 的 Type 组 合 的 结果 ， 而 且 绝对 不 包含 模式 的 两 个 元 素 为 同一 元 素 
的 情况 。 这 个 表 构 造 完毕 后 会 得 到 一 个 Serial，Typel1，Type2 的 穷 举 组 
合 ， 穷 举 了 在 所 有 购买 记录 中 的 各 次 购买 清单 里 的 组 合 ， 而 且 正 反问 
组 合 各 存在 一 次 。 以 Serial 为 0001 为 例 : 


3211-8 PATTERNS 


流水 号 ( Serial) | 单 品类 别 (Type1 ) | 单 品 类 别 (Type2 ) | 流水 号 (Serial) | 单 品类 别 (Type1 ) | 单 品类 别 (Type2 ) 
0001 啤酒 香烟 0001 香烟 HX 
0001 啤酒 日 菜 0001 香烟 8 
0001 啤酒 (5 0001 香烟 酸奶 
0001 啤酒 酸奶 
0001 香烟 啤酒 


这 里 的 Type1 和 Type2 是 有 方 癌 的 ， 指 代 的 是 Type1=>Type2， 代 码 
AL P: 


SELECT COUNT ( 


Support. 
Type1. 


Type2 

FROM 

PATTERNS 

GROUP BY Typei 


Type2: 


也 许 有 的 读者 朋友 会 认为 COUNT CO 需要 除 以 2， 其 实 是 没有 必 
要 的 ， 因 为 这 里 认为 Type1 和 Type2 是 有 方向 的 ， 也 就 是 说 Type1 和 
Type2 分 别 代表 啤酒 和 香烟 ， 和 分 别 代表 香烟 和 啤酒 是 两 种 不 同 的 情 
{i o 


SELECT COUNT | 


DISTINCT Serial) 


TRANSACTION COUNT 
FROM 
PATTERNS; 


用 每 行 的 Support 除 以 TRANSACTION_COUNT， 就 能 得 到 所 有 单 
品 对 应 Typel=>Type2 的 文 持 度 了 。 两 个 SQL 语句 可 以 写 在 一 起 ， 丈 不 
需要 两 次 请 求 数据 库 了 。 如 有 果 要 用 效 值 门限 过 滤 文 持 度 ， 可 以 用 
WHERE 语句 进行 谓词 限制 。 


求 置信 度 相对 麻烦 -一些 ， 但 是 也 不 难 。 思 路 是 ， 求 Typel=>Type2 
的 置信 度 ， 即 用 同时 有 Type2 和 Typel 的 购买 记录 数 除 以 所 有 含有 Typel 
的 购买 记录 数 。 


CREATE TABLE TYPE COUNT VIEW (| 


Type count INT. 


Type VARCHAR | 


64) ) 


AS 
SELECT COUNT | 


Type count 


Type 
FROM 
Buy list 
GROUP BY Type. 


临时 表 为 TYPE_COUNT_VIEW， 它 只 放置 了 Type 和 它 出 现 的 数量 
Type_count 两 个 数据 列 。 


SELECT R1.Typei 


R1.Type2 


R1.Type count/TYPE COUNT VIEW.Type count Confidence 
FROM ( 


SELECT COUNT | 


* 


Type count, 


Type1. 


Type2 

FROM 

PATTERNS 

GROUP BY Typei 


Type2) 


R1 
INNER JOIN 
TYPE COUNT VIEW 
ON Ri.Typei-TYPE COUNT VIEW.Type 


最 后 得 到 R1.Type1、R1.Type2、Confidence， 每 一 条 记录 的 这 3 个 
字段 的 含义 就 是 Typel1=>Type2 以 及 它们 的 置信 度 Confidence。 


TYPE_COUNT_VIEW 构 造 的 是 每 个 单 品 出 现 的 次 数 。 


R1 是 所 有 Type1=>Type2 的 组 合 ， 每 行 记录 表示 Typel=>Type2 出 现 
的 次 数 ， 正 反 两 个 方向 都 有 ， 世 就 是 啤酒 => 香 烟 ， 香 烟 => 嘿 酒 分 别 进 
行 了 统计 。 


注意 连接 条 件 PARTTERNS.Typel=TYPE_COUNT_VIEW.Type， 这 
个 构造 出 来 的 方向 性 实际 上 只 对 Typel=>Type2 敏 感 。 最 后 得 到 的 记录 
结果 就 是 想 要 的 结果 。 记 得 在 最 后 这 段 SQL 语 句 上 加 上 对 于 置信 度 
Confidence 的 过 滤 条 件 限制 ， 过 滤 出 那些 满足 最 小 置信 和 度 的 模式 。 


这 里 需要 强调 的 是 ， 刚 刚 用 SQL 求 解 的 过 程 是 一 个 对 于 最 小 频繁 2 
项 集 的 求解 过 程 ， 也 就 是 求解 那些 “ 哪 两 个 ” 单 品 的 组 合 的 支持 度 和 置 
信和 度 能 够 满足 要 求 。Apriori 算 法 的 求解 过 程 是 求解 所 有 最 小 频繁 项 
集 ，2 项 、3 项 ..……… 一 直到 N 项 ， 只 要 它们 满足 设置 的 文 持 度 和 置信 度 ， 


这 束 古 区 别 。 


11.2. 关联 分 析 与 相关 性 分 析 


在 使 用 Apriori 算 法 计算 出 有 较 高 文 择 度 和 较 高 置信 度 的 频繁 模 式 
之 后 ， 要 对 这 些 频 繁 模式 进行 一 些 甄 别 或 者 分 析 。 但 是 ， 征 不 是 所 有 
的 频 迷 模式 都 是 有 趣 的 ? 


关于 有 趣 模式 ， 在 第 10 章 做 过 一 些 讨 论 。 如 果 一 个 模式 具备 以 下 
特点 ， 则 它 是 有 趣 的 (Interesting) 。 


(1) 易于 被 人 理解 。 

(2) 在 茶 种 确信 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 。 
(3) 是 潜在 有 用 的 。 

(4) 是 新 颖 的 。 


这 些 特点 融 有 很 浓郁 的 主观 色彩 ， 如 新 半 、 是 否 有 用 ， 这 些 观 点 
本 号 可 是 因 人 而 异 的 ， 因 此 所 有 找到 的 频 迷 模式 未 必 都 是 有 趣 模式 。 


Apriori 能 够 过 滤 出 关联 度 较 高 的 模式 ， 但 是 还 不 能 对 相关 性 做 出 
解释 。 


这 里 需要 引入 一 个 有 关 相 关 规 则 的 分 析 。 


在 前 面 见 过 这 样 一 种 记述 方式 ， 啤 酒 => 香 烟 [support=40%; 
confidence=100%]， 也 就 是 Typel=>Type2[ 支 持 度 ， 置 信和 度 ] 的 这 种 对 频 
繁 项 集 (关联 规则 ) 的 记述 方式 ， 现 在 增补 一 种 新 的 方式 ， 
Typel=>Type2[ 文 持 度 ， 置 信 度 ， 关 联 度 ]， 其 中 关联 度 记 作 


correlation ° 


提升 度 (Lift) 是 一 种 简单 的 关联 度 度 量 ， 也 是 一 种 比较 容易 实现 
的 统计 方法 。 
Lift( 4, B) = ZU T8 
P(B) 
上 式 与 朴素 贝 叶 斯 公式 类 似 。 等 号 左边 是 A 和 B 的 相关 性 定义 ， 厂 
边 分 子 是 发 生 A 的 情况 下 发 生 B 的 概率 ， 分母 是 发 生 B 的 概率 。 


当 相 关 性 是 1 时 ，P (BIA) SP (B) 相等 ， 也 就 是 说 在 全 样本 空 
间 内 ，B 发 生 的 概率 和 在 发 生 A 的 情况 下 发 生 B 的 概率 是 一 样 的， 那么 
它们 就 是 毫 无 关系 ° 


当 相 关 性 大 于 1 时 ，P (BIA) AFP (B) ， 也 就 是 说 在 全 样本 空 
间 内 ， 发 生 A 的 情况 下 发 生 B 的 概率 要 比 单 独 统计 B 发 生 的 概率 要 大 ， 
那么 B 和 A 是 正 相 关 的 。 换 句 话说 ，A 的 发 生 促 进 了 B 的 发 生 。 


相反 ， 当 相关 性 小 于 1 时 , P (BIA) 小 于 P (B) ， 也 就 是 说 在 全 
样本 空间 内 ， 发 生 A 的 情况 下 发 生 B 的 概率 要 比 单独 统计 B 发 生 的 概率 


要 小 ， 那 么 B 和 A 是 人 负 相 关 的 。 换 句 话说 ，A 的 发 生 抑 制 了 B 的 发 生 。 


还 是 以 刚刚 做 好 的 PATTERNS 表 为 例 ，SQL 代 码 如 下 : 


SELECT FRACTION.Typel, 


FRACTION. Type2. 


FRACTION.PBA/NUMERATOR.PBPossibility 
FROM ( 


SELECT R1.Support/R2.TRANSACTION_COUNT PBA, 


R1.Type1. 


R1.Type2 
FROM 


( 


SELECT COUNT | 


Support, 


Type1. 


Type2 
FROM 
PATTERNS 
GROUP BY Typei 


Type2 


R1 
INNER JOIN 


( 


SELECT COUNT | 


DISTINCT Serial) 


TRANSACTION COUNT. 


Typei 
FROM 
PATTERNS 
GROUP BY Typei 
) 
R2 


ON Ri.Typei-R2.Typei) 


FRACTION 
LEFT OUTER JOIN | 


SELECT R3.counts/R4.TRANSACTION_COUNT PB 


SELECT COUNT | 


DISTINCT Serial) 


counts 


Type2 
FROM PATTERNS 
GROUP BY Type2 


R3 
INNER JOIN 


( 


SELECT COUNT | 


DISTINCT Serial) 


TRANSACTION COUNT 
FROM 
PATTERNS 


ON 1-1) 


NUMERATOR 
ON FRACTION.Type2-NUMERATOR. Type2 


其 中 Possibility 束 是 要 求 的 每 个 单 品 Type 对 应 的 要 求 的 提升 度 ， 
Type1 和 Type2 分 别 对 应 公式 中 的 A 和 B 两 个 项 目 。 条 件 概率 P (BIA) 的 
求法 和 求 文 持 度 的 思路 是 一 样 的 ， 这 里 不 再 资 述 。 


可 以 发 现在 这 个 求 相关 性 分 析 的 过 程 中 没有 新 的 内 容 ， 仍 然 是 对 
文 持 度 的 求解 ， 只 是 要 对 单 品 独立 的 购买 行为 也 要 求解 ， 看 看 这 个 文 
持 度 起 的 作用 是 促进 购买 概率 上 升 还 是 下 降 ， 仪 此 而 已 。 


11.3. Fa RTA Bah 


在 关联 分 析 的 过 程 中 ， 还 有 一 类 研究 和 前 面 研 究 的 内 容 不 同 ， 前 
面 研 完 的 都 是 频 演 模式， 但 也 有 一 些 情况 下 反而 更 关心 那些 格外 “不 频 
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所 谓 稀 有 模式 ， 是 支持 度 远 低 于 设 定 的 支持 度 的 模式 。 这 里 请 注 
意 一 点 ， 在 前 面 研究 频 和 楷模 陈设 定 文 持 度 时 ， 设 置 的 这 个 门限 国 值 要 
么 征 行 业内 的 一 个 经 验 值 要 么 是 挑选 的 大 量 文 持 度 统计 的 平均 值 ， 大 
于 这 个 数字 ， 融 认为 是 一 个 频 迷 模 式 。 然 而 并 不 是 小 于 这 个 数字 束 是 
稀有 模式 ， 而 征 要 设置 一 个 比 这 个 数字 小 得 多 的 值 作为 过 滤 条 件 ， 比 
这 个 值 小 很 多 的 值 才 是 稀有 模式 。 至 于 设置 为 多 少 ， 很 难 用 一 个 具体 
的 数字 划分 ， 在 实际 生产 生活 中 可 以 考虑 用 文 持 度 倒 排序 的 功能 去 找 
那些 支持 度 极 低 的 模式 。 


Y 


而 对 于 负 相 关 ， 从 名 称 来 考虑 ， 基 本 可 以 认为 ， 一 种 事物 的 增加 
同时 殊 对 应 男 一 种 事物 的 减少 ， 这 种 直观 感觉 下 的 两 种 事物 就 古人 负 相 
天 的 。 这 样 的 事物 在 日 常生 活 中 同样 会 遇 到 很 多 ， 例 如 ， 这 个 月 购买 
数码 产品 的 预算 一 共 是 3000 元 ， 那 么 来 了 数码 照相 机 ， 购 买 PS4 游 戏 
机 的 预算 就 不 足 ， 导 致 不 能 购买 PS4 游 戏 机 ; 相反， 如果 买 了 PS4 游 戏 
机 ， 则 很 可 能 由 于 预算 不 足 不 能 购买 数码 照相 机 。 在 大 量 的 购物 宏观 
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行为 中 出 现 的 这 种 取舍 性 的 负 相 关 行 为 。 


一 般 来 说 ， 如 采 X 和 Y 都 古 频 紧 的 ， 但 是 很 少 或 者 不 一 起 出 现 ， 那 
么 就 说 X 和 Y 古 人 负 相 关 的 ，X 和 Y 组 成 的 模式 钙 人 负 相 关 模 式 。 如 采 X 和 Y 
组 成 的 模式 文 持 度 远 远 小 于 X 的 文 持 度 与 Y 的 文 持 度 的 乘积 ， 那 么 殴 说 
X 和 Y 是 强人 负 相 关 的 。 


要 计算 是 否 为 强 负 相 关 模 式 ， 还 是 和 要 在 整个 样本 空间 里 找到 这 种 
此 请 彼 长 ， 至 少 是 很 少 一 起 出 现 的 频繁 模式 。 在 实际 生产 中 ， 控 握 负 
相关 模式 的 场景 还 是 很 多 的 。 如 在 购物 篮 分 析 中 ， 当 发 现 有 一 些 物 品 
X 和 Y 都 比较 频繁 ， 但 是 却 通常 只 出 现 其 中 一 个 时 ， 可 以 来 进行 统计 分 
析 ， 看 看 这 些 负 相关 的 物品 是 否 满足 了 人 们 在 某 一 大 领域 的 需求 ， 进 
而 估算 人 人 们 在 这 个 领域 的 预算 规模 和 购物 规律 。 在 病症 治疗 或 者 基因 
分 析 中 同样 可 以 用 负 模 式 控 掘 的 方法 来 发 现 那些 有 关联 的 疾病 或 抗 
体 。 例 如 ， 在 得 过 A 疾病 的 患者 中 ， 钼 患 B 疾 病 的 病人 比例 比 普通 入 小 
很 多 ， 那 么 束 可 以 推断 很 可 能 A 疾病 会 让 病人 同时 具备 抵抗 B 疾 病 的 搞 
体 。 


11.4 小结 


关联 分 析 是 数据 挖掘 中 比较 重要 的 一 环 ， 尤 其 是 关于 频 党 项 集 的 


分 析 问 题 。 


在 计算 机 辅助 进行 的 数据 处 理 中 ， 所 有 的 频 迷 项 集 的 问题 都 能 
基于 关系 型 数据 库 的 统计 方法 进行 分 机 ， 如 果 规 模 巨 大 则 可 以 用 分 布 
式 关 系 型 数据 库 或 者 抽样 数据 进行 分 析 。 


关联 分 析 在 农业 、 和 军事、 刑侦 、 医 学 等 很 多 领域 都 有 着 广泛 的 应 
用 ， 和 是 帮助 人 们 认识 事物 之 间 的 关联 关系 的 重要 手段 ， 在 建立 专家 系 
统 或 者 知识 库 的 过 程 中 ， 有 着 不 可 替代 的 作用 ， 请 读者 多 练习 与 思 
考 。 


第 12 划 ”用户 画像 
“用 户 画像 * 这 个 说 法 现在 在 数据 分 析 和 数据 挖掘 领域 很 流行 。 


这 个 说 法 比较 形象 ， 它 是 指 在 数据 库 或 数据 仓库 里 使 用 用 户 信 息 
的 记录 ， 对 这 些 信息 逐 半 丰富 以 后 完成 对 用 户 的 措 述 。 整 个 摘 述 的 过 


程 瑟 像 给 用 户 画 像 一 样 ， 一 笔 一 笔 照 着 模特 画 ， 最 后 完成 对 模特 样子 
的 描述 。 


布 望 对 用 户 做 “画像 ”的 目的 也 是 比较 明确 的 ， 束 是 希望 通过 时 些 
手段 对 用 户 做 杜 别 ， 把 他 们 分 成 彼此 相同 或 不 同 的 人 群 或 个 体 ， 进 而 


区 别 化 提供 服务 和 进行 观察 分 析 一 一 这 通常 是 做 用 户 画像 的 核心 目的 
PES 


在 数据 库 或 者 数据 仓库 中 怎么 对 用 户 进行 画 像 呢 ? 最 常用 的 办 法 
征用 标签 来 对 用 户 进行 画像 一 描述 o 


12.1 标签 


标签 的 英文 常用 的 有 Tag 和 Label， 人 怎么 用 词 不 重要 ， 关 键 看 标签 
怎么 用 (图 12-1) ° 


图 12-1 标签 


这 些 标签 是 从 哪里 来 的 ? 其 实 是 从 很 多 收集 到 的 和 用 户 相关 的 线 
索 中 来 的 。 什 么 是 线索 ? 吏 是 用 户 以 他 的 身份 标识 所 留 下 的 各 种 行为 
的 记录 ， 这 些 记录 基本 是 从 各 种 各 样 的 日 志 中 来 。 


12.2 ”画像 的 方法 


打 标签 这 件 事 情 在 我 们 发 明 “ 用 户 画 像 ” 这 个 词 之 前 吏 已 经 有 了 。 


例如 ， 有 很 多 人 性 格 鲜 明 ， 当 大 家 提 到 他 的 名 字 时 ， 脑 海里 很 容 
易 联想 起 一 些 形象 ， 或 者 一 些 词汇 。 如 一 说 起 医生 ， 有 的 人 脑海 里 就 
会 浮现 出 “日 衣 天 使 救死扶伤” 这样 的 词汇 ， 但 是 有 的 人 脑海 里 就 会 
浮现 出 “勒索 钱财 “ 态 度 恶 淄 " 这 样 的 词汇 。 同 样 的 一 个 或 一 类 对 象 在 
两 个 不 同 的 人 看 来 可 能 是 完全 不 同 的 标签 内 容 ， 原 因 可 能 就 古 这 两 个 
人 平时 关注 的 新 闻 热 点 不 一 样 或 者 经 历 不 一 样 。 又 如 听 到 会 计 这 个 职 
业 ， 束 会 想到 “精细 ”准确 ”， 听 到 拳击 运动 员 束 会 联想 到 “强壮 ”*“ 矫 
健 ”。 这 吏 是 最 初 的 " 打 标 和 俭 " 动 作 ， 和 IT 技术 无 天， 只 是 根据 目 己 的 认 
知 所 留 的 印象 而 已 。 


我 们 回 过 来 说 说 生产 中 用 到 的 例子 ， 先 看 看 数据 库 吧 。 


12.2.1 ”结构 化 标签 


其 实在 学 习 关 系 型 数据 库 时 ， 一 张 表 里 束 融入 了 这 种 “画像 ”的 方 
法 。 这 里 以 数据 库 中 的 用 户 信 息 登 记 表 Table_User 为 例 介 绍 ， 如 表 12-1 
所 示 。 


表 12-1 用 户 信 息 登 记 表 


字段 名 类 型 说 明 
ID INT 用 户 注册 ID 
NAME VARCHAR(64) 用 户 姓 名 
GENDER INT 性 别 
MOBILE VARCHAR(16) 手机 号 
QQ INT QQ 5 
EMAIL VARCHAR(64) 电子 邮箱 地 址 
BIRTHDAY DATE 生日 
CITY ID INT 所 在 城市 ID 
PROVINCE ID INT 所 在 省 ID 
COUNTRY ID INT 所 在 国家 ID 


表 12-1 中 记 孙 的 信息 其 实 本 里 束 古 用 于 接 述 用 户 的 ， 它 们 部 是 画像 
的 标签 。 虽 然 这 些 信息 比较 有 限 ， 但 是 已 经 足够 对 用 户 做 一 定 程度 的 
区 分 。 根 据 性 别 可 以 区 分 男女 属性 ， 根 据 所 在 地 区 〈 国 家， 省 ， 市 ) 
可 以 区 分 地 域 ， 根 据 生 日 可 以 区 分 年 龄 段 ， 根 据 手 机 号 可 以 区 分 手机 
号 所 在 地 区 。 这 已 经 比 完全 无 法 判别 一 个 用 户 ID 的 拥有 者 具备 什么 属 
性 强 了 不 少 一 一 用 户 形 象 清晰 了 不 少 。 


但 是 不 足 之 处 我 们 很 快 束 发 现 了 ， 我 们 往 下 看 。 


1fe SAE STE 


上 上述 Table_User 表 中 的 信息 实在 古 太 有 限 了 ， 能 够 只 根据 所 在 城 
市 、 生 日 (年龄 段 ，、 手 机 号 (所 在 地 ) 、 性 别 就 把 用 户 区 分 开 吗 ? 
我 们 也 不 要 过 于 悲观 。 


如 琳 你 所 处 的 行业 ， 所 提供 的 服务 是 比较 粗 久 的 ， 那 是 否 做 这 些 
区 分 钨 怕 不 重要 ， 因 为 即便 这 些 信息 不 相同 ， 也 没有 提供 区 别 化 服务 
的 余地 。 这 样 的 行业 不 胜 枚 举 ， 如 电力 行业 、 煤 炭 行 业 、 钢 铁 行业 
等 。 这 些 行业 的 用 户 数量 (一 般 用 户 都 是 企业 ) 和 产品 种 类 是 相对 单 
一 的 ， 和 对 大 数据 技术 热衷 的 互联 网 行业 、 和 零售 业 、 你 险 业 、 厂 告 业 
等 产业 大 相 径 庭 ， 几 乎 没有 可 比 性 。 所 以 用 户 画像 对 这 类 行业 的 吸引 
力 不 大 ， 这 应 该 不 难 理解 。 
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力气 想 办 法 去 做 用 户 画 像 的 比较 重要 的 原因 。 


对 于 用 户 结构 化 标签 比较 好 的 补 元 是 采用 一 些 其 他 的 补充 信息 表 
Table_User_Other_Information 来 做 补充 摘 述 ， 如 表 12-2 所 示 。 


表 12-2 补充 信息 表 


字段 名 类 型 说 明 
ID INT 用 户 注册 ID 
LOGIN FREQUENCY INT 每 周 登 录 次 数 
LAST VIEW CATEGORY ID INT 上 次 浏览 商品 类 别 
FREQUENT BUY CATEGORY IDI INT 经 常 购买 的 商品 种 类 TOP1 
FREQUENT BUY CATEGORY ID2 INT 经 常 购买 的 商品 种 类 TOP2 
FREQUENT BUY CATEGORY ID3 INT 经 常 购买 的 商品 种 类 TOP3 
AVERAGE MONTHLY PURCHASE DECIMAL 平均 月 消费 额 


对 于 购物 类 网 站 可 以 再 建立 类 似 Table_User_Other_Information 的 表 
来 记录 用 户 的 消费 行为 ， 这 张 表 的 记录 内 容 对 用 户 画 像 的 帮助 古 更 一 
步 通 近 了 用 户 的 “真实 模样 >， 在 对 用 户 品 质 做 区 分 时 有 更 大 的 提示 作 
用 。 那 么 这 些 值 怎 么 来 ? 显然 古 从 各 次 的 购买 记 杂 中 统计 而 来 ， 
统计 的 方法 对 于 会 SQL 语言 的 开发 人 员 来 说 还 是 很 简单 的 。 


知道 了 用 户 的 性 别 、 手 机 归属 地 、 生 日 (年龄 段 ，、 所 在 城市 ， 
以 及 登录 频繁 程度 、 经 党 购买 的 商品 种 类 、 和 平均 消费 额度 等 信息 ， 是 
不 是 已 经 比 “ 未 画像 之 前 有 了 更 清晰 的 样 较 呢 ? 那么 还 能 把 用 户 画 得 
更 清晰 一 些 吗 ? 还 是 可 以 的 。 


如 采 和 希望 把 画像 做 到 极致 ， 还 可 以 进行 更 深 
服装 类 Table_User_Buy_Clothes， 如 表 12-3 所 示 。 


步 的 描述 。 例 如 ， 


表 12-3 ”服装 类 


字段 名 类 型 说 明 
ID INT 用 户 注 册 ID 
FREQUENT SIZE VARCHAR(16) 常 买 的 衣服 SIZE 大 小 
FREQUENT COLOR IDI1 INT 党 买 的 衣服 颜色 TOP1 
FREQUENT_COLOR_ID2 INT 常 买 的 衣服 颜色 TOP2 
FREQUENT_COLOR_ID3 INT 常 买 的 衣服 颜色 TOP3 


FRA 类 型 说 明 


FREQUENT STYLE ID1 常 买 的 衣服 风格 TOP1 


2 
4 


FREQUENT STYLE ID2 INT 常 买 的 衣服 风格 TOP2 


FREQUENT STYLE ID3 常 买 的 衣服 风格 TOP3 


这 里 可 以 继续 增补 类 似 Table_User_Buy_Clothes 的 细 类 描述 ， 一 个 
用 户 购买 衣服 ， 那 么 他 “喜欢 ”(〈 至 少 是 经 常 ) 买 的 颜色 是 什么 ， 红 
色 、 黄 色 、 赣 色 还 是 绿色 ? 经 常 买 的 衣服 风格 是 什么 ? 日 版 韩版、 
英 版 还 是 中 国 版 ? 不 只 是 衣服 ， 针 对 每 个 细 类 都 可 以 做 这 种 描述 ， 而 
有 的 用 户 肯 定 是 某 些 东西 买 得 多 而 其 他 东西 几乎 不 买 。 


这 类 的 统计 同样 可 以 利用 SQL 语言 轻松 完成 


这 些 表 的 字段 都 是 标签 ， 而 且 是 结构 化 的 标签 ， 这 种 结构 化 的 标 
签 很 好 用 ， 不 论 是 做 推荐 算法 ， 还 是 细 类 分 类 的 个 性 化 研究 ， 都 非常 
VIELE 


2. 信 息 的 正确 性 


关于 信息 正确 性 的 问题 在 Table_User 表 中 就 比较 凸显 。 例 如 ， 所 在 
地 区 填写 征 不 是 准确 ，QQ 号 填写 是 不 是 准确 。 


对 于 所 有 用 户 自 己 填写 的 信息 来 说 ， 有 的 可 以 靠 验证 信息 来 进行 
确认 ， 如 EMAIL 和 MOBILE， 这 些 信息 可 以 通过 信息 回执 码 的 方式 来 
进行 确认 是 否 为 有 效 。 所 在 地 这 种 字段 可 以 考虑 用 外 带 的 IP 库 来 进行 


辅助 确认 ， 但 是 IP 库 也 不 是 很 准确 ， 至 少 实时 性 也 是 有 限 的 ， 所 以 也 
会 有 对 照 查 询 结 末 同 样 不 准确 的 情况 。 


对 于 无 法 清晰 界定 填写 信息 是 否 准确 无 误 的 情况 不 要 悲观 ， 客 观 
世界 本 身 融 是 在 不 售 变 化 的 ， 只 是 一 个 动态 中 的 瞬间 平衡 状态 而 已 ， 
完美 的 准确 本 身 就 是 一 种 理想 ， 只 要 在 一 定 合 理 的 范围 内 逼近 准确 就 
BT ° 


与 其 一 味 地 纠结 用 户 填写 的 信息 是 不 是 准确 ， 不 如 把 目光 和 精力 
更 多 地 投入 到 更 “客观 ”的 数据 上 去 ， 如 购买 记录 和 浏览 记录 ， 分 析 这 
真实 存在 的 行为 要 比 停 留 在 用 户 “ 主 观 ” 填 写 的 一 些 数据 字段 有 意义 


12.2.2 dEZER LARA 


1. 免 费 软件 真 的 免费 吗 


除了 结构 化 的 标签 ， 还 有 很 多 互联 网 公司 对 用 户 画 像 笑 试 使 用 非 
结构 化 标签 的 画像 方法 。 


非 结 构 化 的 标签 通 闸 不 对 标 侈 的 属性 进行 明确 区 分 ， 前 面 的 例子 
里 的 每 个 表 的 字段 有 确切 仿 义 ， 这 种 就 是 对 标签 的 含义 做 明确 的 种 类 


EA. 


然而 互联 网 产品 本 身 的 特殊 性 造成 很 多 时 候 无 法 对 用 户 做 这 种 属 
性 确定 的 画像 标签 。 


举 个 最 典型 的 例子 ， 我 们 在 PC 或 者 手机 上 都 在 用 着 各 种 免费 软 
件 。 破 解 的 软件 束 不 提 了 ， 束 说 真 的 免费 软件 吧 ， 如 QQ、 骏 风 影 首 、 
360 安 全 卫士 .…... 其 中 有 不 少 免 费 软件 做 得 还 是 相当 出 色 的 。 
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熟悉 互联 网 经 济 模式 的 人 都 知道 ， 这 种 模式 就 是 俗称 “羊毛 出 在 猪 
身上 ”的 互联 网 经 济 模式 一 一 处 在 上 游 的 广告 主 投资 ， 处 在 中 游 的 软件 
做 载体 ， 处 在 下 游 的 用 户 做 接受 对 象 。 广 告 主 伦 钱 做 广告 ， 免 费 软 件 


的 开发 商 进行 广告 投放 ， 而 免费 使 用 软件 的 用 户 则 必须 忍受 或 多 或 少 
让 人 抓 狂 的 广告 (图 12-2) 。 


网 络 广告 


图 12-2 ”网 络 广告 
细 说 来 ， 这 个 行业 的 环节 不 只 有 3 个 角色 ， 而 是 4 个 角色 。 
| mk: 花 钱 为 目 己 的 品牌 或 者 产品 做 广告 的 人 。 


媒体 ;广告 位 提供 商 ， 如 电视 台 、 网 站 、 杂 志 ， 在 刚刚 的 例子 
里 ， 具 有 弹 窗 能 力 的 软件 都 是 媒体 。 


广告 商 : AR ERE, A) SERRA Si, BERR 
HES 

受众 : PC 和 手机 终端 用 户 。 

这 里 的 广告 商 作用 是 很 大 的 ， 因 为 让 广告 主 直 接 面 对 每 个 免费 软 
件 商 去 投放 广告 显然 对 于 他 们 来 说 成 本 过 高 了 ， 倒 不 如 交 给 这 些 对 投 
放 更 为 专业 的 广告 商 ， 由 他 们 根据 广告 主 的 预算 和 投放 意愿 进行 有 效 
的 投放 。 


而 广告 商 们 收取 了 大 量 的 广告 素材 (图 片 、 视 频 、 链 接 ) 和 经 费 
以 后 会 怎么 做 呢 ? 如 何 去 帮 广 告 主 采 购 合适 的 广告 位 呢 ? 现在 比较 流 
行 的 是 使 用 RTB (Real Time Bidding， 实 时 广告 竞价 ) 系统 进行 广告 竞 
价 ， 如 图 12-3 所 示 。 


这 看 上 去 有 点 像 淘 至 的 秒杀 ， 只 是 淘宝 的 秒杀 是 店主 挂 出 有 限 的 
货品 ， 在 某 一 个 具体 的 时 间 开 放 ， 然 后 买 家 蜂拥 而 上 抢购 移 到 移 得 。 
然而 RTB 的 店主 是 SSP (Supply Side Platform ， 供 应 方 平 台 ) ， 也 就 是 
广告 位 提供 者 ， 他 们 卖 的 是 展示 的 广告 位 ， 这 些 广告 位 通过 目 动 竞 价 
的 复杂 党 略 ， 节 后 决定 投放 哪 一 家 广告 商 的 广告 资源 。 抢 购 者 是 广告 
主 ， 只 是 这 个 过 程 是 广告 商 代 大 的 ,广告 商 帮助 他 们 做 了 竞价 策略 并 
根据 策略 进行 广告 投放 。 
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广告 策略 


图 12-3 广告 的 运作 流程 


这 种 广告 的 展示 和 点 击 收费 是 不 一 样 的， 点 击 的 收费 要 比 单纯 展 
示 的 收费 高 很 多 。 很 多 免费 软件 其 实 一直 在 绞 尽 脑 计 试图 根据 用 户 的 
终端 使 用 习惯 做 一 个 画像 一 一 尽管 这 个 用 户 画 像 画 的 可 能 不 是 用 户 的 
个 人 而 是 用 户 的 计算 机 。 


“暴力 弹 窗 "是 一 种 在 技术 手段 上 显得 毫 无 建树 的 投放 方式 ， 它 太 
直接 ， 太 暴力 ， 更 让 人 感觉 不 爽 的 是 它 里 面 承 载 的 广告 内 容 很 多 是 无 
法 催化 一 次 点 击 的 。 广 告 在 暴力 弹 窗 上 无 区 别 地 投放 会 让 人 感觉 像 在 
每 次 进 到 家 门口 ， 都 能 发 现在 门口 夹 了 一 张 硕大 的 小 广告 ， 上 面 赫然 
写 着 “得 了 脚气 怎么 办 ? 找 xx 老 军医 ， 一 针 就 灵 。” 而 且 天 天 如 此 。 或 
者 是 在 一 个 使 用 管道 天 然 气 的 小 区 ， 门 口 天 天 有 人 举 个 大 牌子 ， 挡 住 
一 半 的 路 ， 上 面 写 着 “煤气 铅 便 宜 换 *"， 你 不 得 不 每 次 都 跟 他 说 一 句 “ 内 
开 ， 让 我 过 去 ”( 图 12-4) 。 


s 
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按 被 用 户 看 了 多 少 次 来 收费 的 话 ， 我 是 广告 主 也 肯定 不 会 找 他 们 做 广 
告 的 。 最 起 码 的 ， 做 这 种 广告 还 是 要 有 一 定 的 针对 性 ， 尤 其 是 这 个 换 
煤气 钢 的 ， 起 码 应 该 去 一 个 非 天 然 气管 道 的 小 区 才 会 有 点 效果 。 


图 12-4 ”暴力 弹 窗 


2. 不 犯法 束 画 画 看 


好 在 各 种 软件 在 用 户 PC 和 手机 里 还 做 一 些 “ 画 画 看 ”的 动作 ， 画 什 
A? 当然 是 给 用 户 画 像 。 


软件 在 用 户 的 PC 和 手机 里 都 能 做 什么 ?” 从 技术 角度 来 看 ， 如 有 果 它 
在 PC 或 手机 启动 后 束 补 加载 入 内 存 则 几乎 是 什么 都 可 以 做 的 ， 一 切 行 
为 都 可 以 。 还 好 ， 有 很 多 信息 安全 类 的 软件 ， 如 金山 毒霸 、 卡 巴 斯 基 
等 ， 会 监控 这 些 软件 的 行为 ， 如 条 这 些 软件 轻易 打开 本 地 的 文件 翻 看 
里 面 的 内 容 ， 或 者 记录 在 键盘 上 录入 的 信息 ， 那 么 动 辑 是 直接 告警 ， 


严重 的 就 会 直接 删除 软件 内 容 。 此 外 ， 在 法 律 层 面 ， 对 用 户 敏感 信息 
的 收集 以 及 对 此 产生 的 损失 ， 软 件 的 制作 人 是 负 有 连带 贡 任 的 。 况 
且 ， 这 些 软件 本 身 在 合法 商业 领域 的 应 用 价值 的 长 远 性 远 比 做 这 些 偷 
偷 摸 摸 的 下 三 滥 扫 描 赚钱 得 多 〈 图 12-5) 。 
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图 12-5 ”画像 软件 


有 哪些 东西 是 可 以 用 来 给 一 个 PC 或 者 手机 做 画像 的 呢 ? PC 和 手机 
上 所 有 带 描 述 作用 的 信息 都 可 以 。 软 件 列表 、 软 件 使 用 记录 、 浏 览 融 
访问 记录 等 都 是 比较 典型 的 用 户 画像 素材 。 


注意 这 里 有 一 个 信息 差异 化 的 问题 。 
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抓 取 下 来 ， 然 后 做 一 个 关键 词 的 分 词 工作 。 或 许 会 分 析出 很 多 类 似 的 
记录 片段 ， 用 NoSQL 的 Key-Value 形 式 记 录 ， 如 表 12-4 所 示 。 


表 12-4 记录 片段 
KEY VALUE 


37-25-CD-C1-2E-72 | 暴风 影音 ， 游 戏 ， 棋 牌 ， 汽 车 模型 ， 冲 锋 衣 ，iPhone 6s Plus, /hX Note 3, 4EH(&, UGG, ia 


这 是 对 MAC 为 “37-25-CD-C1-2E-72” 的 一 台 终 端 设备 的 这 些 记录 做 
了 抓 取 ， 并 提取 关键 词 得 到 的 。 软 件 列 表 越 长 ， 浏 览 器 访问 记录 越 
多 ， 这 样 的 关键 词 留 下 的 也 就 越 多 ， 这 就 是 最 为 “粗糙 ”的 一 种 用 户 画 
像 方式 。 与 其 说 是 画像 ， 不 如 说 是 用 户 感 兴趣 的 主题 的 一 些 提 示 。 
当 “37-25-CD-C1-2E-72” 的 广告 位 (SER 再 次 请 求 广告 资源 时 ， 这 些 
事先 收集 的 记录 很 有 可 能 帮助 和 这 些 关 键 词 有 关 的 产品 广告 获得 这 个 
广告 位 ， 谁 掌握 了 这 些 数据 谁 怠 有 可 能 对 这 个 MAC 地 址 进行 一 些 辅 助 
性 的 描述 ， 即 提供 画像 。 因 此 广告 请 求 算法 会 有 一 些 倾向 性 的 弹 窗 ， 
如 弹出 一 个 种 锋 衣 的 广告 ， 弹 出 一 部 高 级 玛 珊 象 棋 的 广告 ， 或 者 弹出 
个 高 端 汽车 模型 的 广告 等 。 所 以 ， 这 些 标签 谁 会 有 兴趣 购买 呢 ? 


DMP (Data Management Platform ， 数 据 管理 平台 ) 会 有 可 能 帮助 DSP 
提高 一 定 的 转化 率 ， 当 然后 面 的 匹配 算法 有 可 能 会 非常 复杂 。 


3. 标 签 的 权重 


这 些 标签 的 打 法 原理 大 致 如 此 ， 但 是 并 不 是 所 有 的 免费 软件 都 一 
定 会 无 老 别 地 搜集 这 些 数据 ， 因 为 搜集 这 些 数据 并 进行 分 析 同 样 征 有 
成 本 的 。 


除了 这 些 免费 软件 的 提供 商 ， 还 有 其 他 商家 会 做 用 户 画 像 操 作 
吗 ? 有 的 ， 而 且 有 的 商家 做 这 些 事情 还 是 手 到 擒 来 非常 方便 ， 如 电信 
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由 于 在 我 国电 信和 是 属于 国家 管制 的 领域 一 实名制 注册 ， 电 信 运 
营 商 会 天 然 获 得 一 些 用 户 的 信息 ， 如 里 份 证 号 、 手 机 号， 这 些 信息 整 
天 然 且 准确 地 存在 。 除 此 之 外 ， 电 信 运 营 两 还 有 很 多 优势 是 普通 的 软 
件 所 不 具备 的 ， 电 信 运 富 丙 有 和 链 路 ， 有 基站 ， 有 核心 路 由 交换 设备 。 
所 以 ， 家 里 的 电脑 或 者 手机 一 旦 连 上 网 ， 那 么 所 有 的 访问 记录 其 实 都 
能 够 被 运营 商 获 得 ， 只 要 运营 商 愿 意 ， 基 站 会 记录 手机 所 在 的 位 置 以 
及 此 刻 的 时 间 。 


你 会 经 稼 在 什么 时 间 出 现在 哪个 基站 附近 ， 你 喜欢 上 什么 网 站 ， 
每 天 上 网 时 间 多 长 ， 你 喜欢 浏 宽 哪些 淘宝 、 天 猫 或 者 泵 东 的 货品 
栏 ， 你 手机 里 有 哪些 APP 应 用 .…… 这 些 信息 ， 除 了 HTTPS 加 密 的 访问 


以 外 ， 运 营 商 几乎 可 以 做 到 了 如 指 掌 。 曾 经 和 我 同学 聊天 一 一 他 现在 
征 某 电信 运营 商 的 大 数据 部 门 主管 ， 据 说 该 运 曹 商 在 做 用 户 画像 的 时 
候 做 得 十 分 细致 ， 包 括 基本 属性 、 位 置 属性 、 交 往 属性 、 家 庭 属 性 、 
账户 属性 、 终 端 属性 、 行 为 属性 、 请 费 属性 、 接 触 属 性 、 应 用 使 用 属 
性 、 流 量 属性 、 内 容 属性 等 ， 非 常 丰富 ， 最 多 的 情况 下 曾经 给 有 的 用 
尸 打 标签 多 达 3000 多 个 ! 爷 不 管 打 得 是 不 是 合理 ， 起 码 是 有 了 这 人 么 多 
不 同 的 标签 描述 o 
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别 ， 让 它 更 准确 地 描述 用 户 。 


回头 再 看 刚刚 的 例子 ，MAC“37-25-CD-C1-2E-72”， 后 面 的 标签 有 
暴风 影音 ， 游 戏 ， 棋 牌 ， 汽 车 模型 ， 冲 锋 衣 ，iPhone 6s Plus， 小 米 Note 
3， 毕 月 传 ，UGG， 淘 宝 。 从 中 能 看 到 浏览 顺序 吗 ? 能 看 到 对 这 些 不 同 
主题 的 关心 程度 吗 ? (关于 怎么 来 做 分 词 后 面 在 第 14 间 里 会 介绍 ) 不 
大 能 看 出 来 。 这 其 实 好 比 给 一 个 人 画像 ， 画 了 一 个 蜡 子 很 像 ， 画 了 一 
只 耳 末 很 像 ， 画 了 两 只 眼睛 很 像 ， 但 是 没有 放 在 一 起 ， 松 散 地 放 了 一 
Es 
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这 样 的 画像 其 实 还 是 有 很 多 改进 的 余地 。 


其 一 ， 想 想 画 像 这 种 东西 。 我 目 己 3 岁 时 的 画像 ， 和 我 上 个 月 的 画 
像 ， 哪 个 和 现在 更 像 一 些 ? 显然 古 后 者 。 所 以 ， 距 离 现在 时 间 越 近 发 


现 的 一 些 特质 应 该 和 久远 时 间 发 现 的 特质 区 别 对 待 ， 更 强调 近 距 离 时 
间 的 特质 而 模糊 远 期 的 特质 。 


其 二 ， 每 个 人 的 画像 中 都 有 不 同 的 形象 ， 有 的 人 臂膀 硕 壮 ， 有 的 
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也 应 该 在 画像 中 有 所 体现 。 


其 三 ， 数 字 化 等 级 标注 。 在 前 两 点 里 面 所 说 的 程度 的 区 别 是 要 用 
数字 做 标记 区 分 的 。 还 生 那 句 话 ， 没 办 法 做 到 数字 化 的 东西 是 不 能 计 
算 也 不 能 比较 的 。 


改良 后 的 用 户 标 签 Table_User_Tag 如 表 12-5 所 示 。 


312-5 改 民 后 的 用 户 标 签 


VALUE 
暴风 影音 : 3 
游戏 :2 
棋牌 ，3 
汽 牛 模型 : 9 
冲锋 衣 : 5 
iPhone 6s Plus: 9 
小 米 Note 3: 6 
iH f£. 2 
UGG: 1 
淘宝 : 3 


KEY 


37-25-CD-C1-2E-72 


用 0~9 这 10 个 数字 来 标记 程度 ，0 代 表 很 低 ，9 代 表 很 高 。 这 样 的 一 
个 标记 会 比 原先 没有 做 数字 标记 更 有 层次 感 。 这 种 标记 的 依据 可 以 有 
很 多 ， 最 简单 的 标记 方式 可 以 用 以 下 宽 略 。 


每 天 对 用 户 当 天 的 软件 列表 和 浏览 需 访 问 记录 进行 一 次 扫 搞 ， 人 整 
理 出 一 堆 新 的 关键 词 列表 ， 把 它 和 库 里 的 关键 词 列表 比 对 。 新 发 现 的 
天 键 词 标记 为 5， 已 有 的 关键 词 的 标记 数字 +1， 原 来 有 而 当天 没有 更 新 
的 关键 词 -1。 这 种 策略 可 以 作为 一 种 备 选 的 方式 。 也 融 是 ， 头 一 次 发 现 
的 关键 词 束 是 5， 一 旦 5 天 没 发 现 这 个 关键 词 吏 标 记 为 0 或 者 干脆 簿 环 挥 
(删除 ) ， 因 为 这 是 一 个 偶然 性 的 关键 词 ， 新 词 连 续 4 天 被 发 现 ， 热 度 
极 升 为 9.……. 这 些 数值 是 可 以 调整 的 ， 调 整 之 后 的 结果 无 非 是 遗 环 的 周 
期 会 变化 ， 或 者 热 词 升 瘟 的 太 奏 会 变化 而 已 。 


权重 标记 的 策略 是 一 种 比较 主观 的 标记 方法 ， 因 为 权重 标记 策略 
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否 恰当 ， 是 否 要 对 浏览 中 的 中 英文 或 同义词 进行 对 照 转译 ， 是 否 要 对 
每 个 浏 贤 的 页 面 的 性 质 进 行 区 分 ， 是 否 要 对 众多 浏览 页 面 之 间 的 关联 
做 挖掘 来 判断 新 的 关键 词 。 这 些 方 法 的 取 售 都 是 在 考量 成 本 和 收益 而 
已 ， 并 无 确切 的 对 错 可 言 ， 所 以 仍然 是 主观 性 后 主导 的 方式 。 


12.3 ”利用 用 户 男 像 


12.3.1 ZZ HFP m e 


前 面谈 论 了 用 户 画像 怎么 来 做 。 在 前 面 的 场景 里 其 实 是 割裂 地 进 
行 用 户 画像 一 设想 自己 在 一 种 “公平 "、“ 无 偏向 *、“ 无 目的 "的 环境 
中 对 用 户 进行 描述 ， 希 望 对 用 户 的 描述 尽量 做 到 根据 客观 观察 到 的 情 
况 做 客观 性 的 描述 。 这 种 画像 就 是 割裂 的 用 户 画像 


这 种 画像 的 好 处 是 计算 相对 比较 简单 ， 而 且 因 为 画像 内 容 和 未 来 
的 应 用 目的 无 天 ， 所 以 画像 的 应 用 场景 也 会 更 加 丰富 。 束 拿 刚刚 说 的 
电信 公司 画像 的 例子 来 说 ， 这 样 的 画像 是 要 比 同一 个 用 户 在 某 个 垂直 
电 商 网 站 里 的 画像 应 用 场景 更 广 的 《所谓 垂直 电 商 束 是 指 只 经 旬 有 某 一 
方面 产品 的 罕 范 围 电 商 ， 如 只 经 彰 母 几 产品 ， 只 经 营 各 种 书籍 ， 或 者 
REFERAS mS ° MGB RBA AT ate rR ^ oR e TE 
的 电 商 了 ) 。 


12.3.2 ”紧密 型 用 户 画 像 


本 章 最 前 面 举 的 例子 里 ， 在 一 个 购物 网 站 通过 购物 记录 的 分 析 来 
给 用 户 打 标签 画像 古 紧 密 的 用 户 画 像 一 一 这 个 “紧密 ” 古 相 对 前 面 “ 制 | 
弄 ” 而 言 的 。 男 像 直 接 来 目 于 营业 中 的 行为 ， 画 像 的 结果 也 直接 应 用 于 
业内 容 。 尤 其 是 对 于 刚刚 提 到 的 这 种 垂直 电 商 ， 它 的 画像 紧密 程度 


12.3.3 SIE ARI 


“我 的 画像 到 底 像 不 像 ? ”这 个 问题 是 所 有 初试 用 户 画 像 的 技术 人 
员 都 会 问 的 一 个 问题 。 我 们 可 能 都 曾经 历 这 样 的 纠结 ， 做 了 画像 之 
后 ， 怀 疑 目 己 画 得 不 够 “ 像 ”。 如 有 果 你 还 在 纠结 ， 下 面 就 说 说 我 的 看 
法 。 


1.“ 像 不 像 ” 跟 谁 比 


谈论 像 和 不 像 时 是 有 比较 对 象 的 。 


真实 在 纸 上 画 一 个 人 的 肖像 ， 拿 去 和 照片 比 ， 肉 眼 直 观 是 能 看 出 
像 不 像 的 。 在 用 户 信 息 库 里 的 用 户 画 像 也 要 有 对 比 的 对 象 ， 问 题 是 
这 个 对 象 能 捕捉 到 吗 ? 未 必 能 。 


能 够 收集 到 的 用 户 相关 信息 实际 是 非常 片面 和 有 限 的 ， 即 便 可 以 
购买 到 其 他 第 三 方 的 用 户 画 像 库 进行 对 比 也 不 一 定 能 比 对 出 结果。 因 
为 收集 的 标签 维度 未 必 一 致 ， 维 度 一 致 内 容 不 一 致 也 同样 不 能 断言 是 
目 己 的 库 错 误 还 是 对 比 库 错 误 。 所 以 这 种 对 比 本 身 束 可 能 是 没 标准 的 
比较 。 
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直接 而 且 及 时 ， 针 对 性 强 。 也 就 是 说 ,，“ 画 得 不 准 ” 没 关系， 再 观察 再 
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这 种 情况 一 般 出 现在 系统 “ 冷 局 动 * 时 ， 用 户 画 像 库 里 没有 任何 可 
以 参考 的 攒 据 ， 标 等 打 出 来 也 是 片面 的 。 


FM ARAN AP RASS, RSH Ke ain, Al 
为 画像 本 身 也 殉 是 为 了 提高 产能 转化 率 。 在 电 商 网 站 上 ， 用 户 画 像 哆 
征 为 了 最 终 的 用 户 购物 引导 更 为 有 效 ， 而 引导 是 不 是 有 效 的 验证 周期 
古 极 短 的 ， 甚 至 一 两 天 束 能 验证 完毕 一 一 画 得 不 准 大 不 了 过 两 天 再 重 
新 试 着 画 一 次 。 这 种 碗 代 的 思想 方式 比 伦 费 很 长 时 间 只 为 画 一 个 完 
的 用 户 画 像 容 易 实 现 得 多 。 


还 记得 原来 我 在 做 公开 课 的 时 候 ， 曾 经 做 过 一 个 比喻 。 


德国 二 战 时 期 最 大 的 战列舰 是 像 斯 放 号 战列舰 ， 满 载 排 水 量 5 万 吨 
左右 ， 主 炮 口径 381mm， 最 大 射程 36.5km。 战 舰 安装 了 “FuMo 23” 火 
空 雷 达 ， 有 效 探测 距离 25km， 远 不 及 其 火炮 的 最 大 射程 。 人 的 肉眼 在 
青 好 的 海面 上 最 远 也 不 过 能 看 到 30km 左 右 的 地 方 有 目标 而 已 。 如 果 想 
准确 知道 25~36.6km 这 个 距离 上 的 目标 有 没有 被 炮火 击 中 ， 就 只 能 
动 其 搭载 的 Ar196 侦 察 机 了 。 一 轮 齐 射 以 后 ， 侦 察 机 报告 射击 偏差 ， 


重 狐 调整 射击 角度 。 如 此 反复 。 这 种 战术 在 很 多 陆军 战斗 中 的 炮兵 


这 种 方式 束 和 我 们 刚才 说 的 多 次 画像 类 似 ， 因 为 我 们 的 感知 精度 
MEXA ARR ° 


3.0.1% 已 经 很 多 了 


有 很 多 比较 成 功 的 用 户 画 像 系 统 ， 能 够 把 转化 率 提 高 0.3% 左 右 ， 
或 者 也 能 到 0.19% 一 一 大 概 了 惑 是 这 种 感觉 : 原来 没有 用 用 户 画像 系统 
时 ， 广 告 推荐 系统 转化 率 大 概 是 1%， 使 用 了 用 户 画 像 系统 后 ， 转 化 率 
变 成 了 1.19%。 听 起 来 这 个 数字 好 像 插 让 人 失望 的 一 一 废 了 这 么 大 力气 


才 所 高 这 人 么 一 点 点 。 


但 是 别 筷 了 整个 市 场 的 容积 是 很 大 的 ，2014 年 度 ， 淘 至 的 全 年 成 
区 额 为 1.172 万 亿 元 人 民 币 ， 如 果 能 够 提高 仅仅 0.1% 的 销售 额 是 多 少 
呢 ， 大 约 11.72 亿 元 人 民 币 。 


iiMedia Research 〈 艾 媒 咨询 ) 在 2015 年 8 月 发 布 了 《2014 一 2015 年 
中 国 DSP 行 业 发 展 研 究 报 告 》。 报 告 显 示 ，2015 年 中 国 网 络 广 告 市 场 
规模 将 达到 2123.4 亿 元 。2123.4 亿 元 人 民 币 ， 提 高 0.1% 也 有 2.1234 亿 元 
人 民 币 ， 这 也 不 是 一 个 小 数字 ! 


12.4 小结 


用 户 画像 这 个 概念 只 需 理解 即 可 。 每 个 公司 有 不 同 的 用 户 画 像 的 
画 法 ， 只 要 掌握 基本 的 方法 ， 不 怕 试 错 ， 用 户 画 像 库 是 完全 有 可 能 收 
集成 为 一 个 对 业务 有 足够 帮助 的 参考 系统 的 。 


用 这 些 标签 和 这 些 标签 对 应 的 用 户 行为 ， 可 以 通过 逻辑 回归 或 者 
归纳 树 算 法 进行 用 户 行 为 的 预测 ， 也 可 以 由 紧密 型 用 户 画像 直接 成 为 
协同 过 滤 的 参考 对 象 。 大 胆 笠 试 ， 不 要 怕 试 错 ， 用 户 画 像 不 难 。 


第 13 间 ”推荐 算法 
推荐 算法 在 现在 很 多 电子 商务 网 站 中 普遍 应 用 。 


推荐 系统 作为 现在 众多 电 商 系统 、 内 容 分 发 系统 等 网 站 的 必要 子 
系统 ， 越 来 越 受 到 运 宫 者 的 重视 。 推 荐 系统 核心 要 解决 的 问题 十 提高 
转化 率 ， 也 就 是 经 过 分 析 ， 要 猜测 某 一 个 用 户 更 喜欢 什么 商品 ， 更 可 
能 购买 什么 商品 ， 或 者 更 喜欢 哪些 歌曲 、 文 章 ， 在 系统 中 要 进行 适当 
形式 的 推荐 ， 如 页 面 蒜 窗 、 宫 销 邮件 、 短 信息 等 。 


13.1 ”推荐 思路 


在 电子 商务 网 站 中 有 这 样 的 场景 ， 就 是 系统 期 望 通过 分 析 (或 者 
说 猜测 ) 给 用 户 推 荐 一 些 商 品 ， 从 而 提高 购物 的 园 化 率 。 这 种 推荐 的 
现象 当然 首先 还 是 出 现在 实体 店 中 ， 会 经 常 在 超市 或 者 商场 里 看 到 那 
些 卖 酸奶 的 小 妹妹 会 老 远 束 招 呼 小 女孩 过 去 壬 笑 她 们 的 新 品 酸 奶 ， 或 
者 卖 肉 的 会 招呼 路 过 的 大 和 爷 大 妈 过 来 买 新 鲜 的 肉 。 这 本 身 就 古人 目 己 
在 利用 推荐 系统 的 思路 ， 起 码 卖 肉 的 小 贩 会 认为 把 鲜 肉 推荐 给 大 仓 大 
妈 会 比 推荐 给 小 朋友 有 着 更 高 的 转化 率 。 


总 体 来 说 ， 推 荐 系统 作为 一 个 确定 目的 的 系统 一 一 提高 转化 率 ， 
有 很 多 的 线索 可 以 去 做 。 因 为 只 要 有 片段 性 的 信息 ， 就 有 提高 转化 率 
的 可 能 性 ， 只 要 转化 率 比 推荐 系统 不 参与 的 时 候 高 ， 推 荐 系统 应 该 说 
束 是 有 效 的 ， 只 是 不 同方 式 的 有 效 程度 有 可 能 会 非常 蕊 殊 。 


其 实 推荐 系统 中 流派 比较 多 ， 每 个 公司 每 个 项 目 具 体 落 实 起 来 也 
古 千 差 万 别 。 在 没有 介绍 协同 过 滤 个 思路 之 前 ， 先 想 想 看 ， 利 用 已 经 
学 过 的 什么 方式 可 以 笑 试 做 这 种 推荐 呢 ? 


13.1.1 ” 贝 叶 斯 分 类 


可 以 笑 试 使 用 朴素 贝 叶 斯 分 类 的 思路 来 做 一 下 推荐 。 通 过 统计 茶 
用 户 所 有 购买 物品 的 分 布 特性 ， 统 计 该 用 户 购买 物品 的 分 布 情况 。 


如 某 用 户 ， 他 在 某 网 站 一 共 购 买 过 100 件 商品， 其 中 70 件 是 数码 产 
品 或 小 家 电 ，20 件 是 登山 用 品 ，10 件 是 其 他 各 类 用 品 。 


在 70 件 数码 产品 中 ， 有 40 件 是 各 类 音像 制品 ，5 件 是 手机 ，5 件 是 
EWKA, IPUH3OLPIEUIS ^ ER ` MP3 ` iPad ^ #8 ^ USB Las 
等 各 种 外 设 。 


20 件 登山 用 品 里 有 3 件 帐篷 、3 件 登山 服 、3 双 登山 靳 、3 个 登山 
包 、3 支 登山 杖 、3 顶 登山 帽 、 还 有 2 只 专用 手电 。 


10 件 各 类 用 品 束 非常 杂 了 ， 有 零食、 箱包 、 内 衣 社 、 日 化 用 品 


Ag 
XE 


这 种 情况 下 ， 其 实 拿 来 一 个 新 的 商品 ， 判 断 要 不 要 推荐 给 某 人 ， 
号 看 他 购买 的 记录 的 偏重 ， 可 以 说 购买 音像 制品 的 概率 是 最 蜗 的 ， 在 
全 部 的 100 件 货物 里 占 了 40%， 其 他 类 别 的 分 析 也 十 同 理 。 


所 以 这 种 情况 下 ， 有 理由 相信 ， 为 这 个 用 户 推荐 一 个 音像 制品 要 
比 什么 都 不 推荐 是 有 更 高 的 转化 率 的 ， 刚 刚 的 统计 结果 束 是 根据 。 这 
种 做 法 从 思路 上 应 该 是 没有 问题 的 ， 但 是 同样 地 这 些 转化 率 是 要 进行 
量化 的 ， 只 需要 记录 推荐 的 商品 有 多 少 确实 被 购 于 了 束 知 道 这 种 方法 
的 可 靠 性 有 多 高 了 。 


13.1.2 ”利用 搜索 记录 


不 管 是 在 一 些 网 站 的 广告 位 上 ， 还 是 在 系 东 商城 、 淘 宝 等 网 店 
上 上， 部 有 过 类 似 的 经 历 ， 束 是 在 浏览 器 中 搜索 过 的 东西 ， 会 从 广告 位 


上 显示 出 来 。 在 网 店 里 ， 网 店 会 根据 用 户 搜索 过 的 关键 词 猜测 用 户 想 
要 买 某 些 产品 ， 所 以 在 列 出 产品 列表 的 同时 也 会 在 右 侧 给 用 户 推荐 一 
些 商品 (图 13-1) e 
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图 13-1 淘宝 网 


即便 在 什么 都 没有 输入 的 情况 下 单 击 “搜索 按钮， 淘宝 网 还 是 在 
右 侧 为 用 户 推荐 了 一 些 商品 ， 下 面 也 列 出 了 一 个 推荐 的 商品 列表 ， 并 


还 注 明 是 根据 * 黄 钻 爱 买 店铺 ”和 “回头 客 爱 买 店铺 "这些 店 铺 的 热卖 商 
品 来 推荐 的 〈 图 13-2) ° 


所 有 分 类 > #35509347 HEN 


WAGE: PERRA RR SCHrBeett hi 流行 后 多 SAMARAS 


IMETZESERS. Re Bie WR RR Eè u Ahm SR FE ARERR Bh AE ei 。 高 令 毛 衣 女 


san AT HE mE fe |¥ "hd E E 


OERA | tu DEWR OR aa Oaa 门 二 手 ORR > 


zw xewer| 门 薪 100 元 可 用 100 元 之 00 元 可 用 [ 120075: FT] 


See). eRe Oar: aE TSH 500+ | PAREEN the 5004 (+ 


图 13-2 ”商品 推荐 
在 其 他 网 站 的 广告 位 上 也 会 发 现 一 些 有 趣 的 事情 ， 就 是 曾经 在 百 
度 或 者 其 他 搜索 引擎 上 搜索 过 的 东西 会 出 现在 这 些 网 站 的 广告 位 上 ， 
或 者 这 个 网 站 的 广告 位 上 会 出 现 一 些 与 当前 页 面 内 容 的 关键 词 相 关 的 
内 容 推荐 。 这 是 网 站 广告 位 的 JavaScript 代 码 读 取 了 浏览 器 的 本 地 
Cookies 〈 通 常 可 以 用 来 存储 浏览 器 上 的 表单 信息 、 用 户 名 、 搜 索 关 键 


词 等 信息 ) 和 当前 页 面 的 文本 信息 ， 并 做 了 相应 的 关键 词 提取 ， 最 后 
根据 这 些 关 键 词 来 猜测 用 户 可 能 感 兴 趣 的 内 容 再 推荐 到 广告 位 上 。 


应 该 说 这 两 种 方法 的 猜测 方式 都 不 能 算 错 ， 只 有 哪个 性 价 比 更 好 
一 说 。 


但 征 有 时 候 也 会 看 到 一 些 让 人 感觉 推荐 系统 很 优 的 地 方 ， 融 是 搜 
索 并 购买 了 一 些 产品 之 后 它 还 在 不 停 地 进行 最 类 似 产 品 的 推荐 。 束 是 
我 们 平时 在 网 上 购物 的 时 候 经 常 看 到 现象 ， 买 了 尉 子 还 在 推荐 鞋子 ， 
这 道 可 以 理解 ， 因 为 鞋子 这 种 很 可 能 一 个 人 会 买 不 止 一 双 。 有 的 推荐 
束 显 得 很 不 智能 ， 比 如 我 天 了 电视 还 推荐 电视 ， 头 了 电 订 箱 还 推荐 电 
冰箱 。 即 便 是 在 网 站 能 够 得 知 我 购买 电视 和 空调 的 成 多 记 采 的 情况 下 
仍然 这 样 做 ， 确 实 让 我 们 觉得 系统 很 弱智 。 但 是 这 也 还 是 可 以 理解 ， 
毕竟 系统 智能 的 程度 是 一 个 改进 的 过 程 ， 这 种 根据 购买 产品 对 象 的 保 
有 率 去 对 推荐 内 容 做 调 优 的 竹 试 应 该 不 是 它 最 优先 改进 的 内 容 。 


目前 协同 过 滤 公 认 的 应 该 是 两 种 思路 ， 第 一 种 古 利用 早期 大 家 人 研 
完 比 较 多 的 邻居 方法 。 而 邻居 方法 中 也 有 两 种 视角 ， 我 们 分 别 来 看 一 
Re 


第 一 种 ， 基 于 用 户 。 Hite, AEA — TH) RUPES 
户 的 特征 比较 像 ， 然 后 看 看 这 些 用 户 喜 欢 闫 哪 类 的 商品 ， 再 从 这 些 商 
品 里 挑 出 一 些 推荐 给 该 用 户 。 


第 二 种 ， 基 于 商品 。 也 吏 是 说 ， 系 统 通过 分 析 用 户 的 购买 行为 来 
判断 用 户 喜 欢 的 商品 类 型 ， 然 后 从 那些 用 户 喜 欢 的 商品 类 型 里 挑 出 一 


© 


5 推荐 给 用 户 。 


[| 


前 者 称 为 User-based CF (User-based Collaborative Filtering) ， 或 者 
叫 基于 用 户 的 协同 过 滤 ; 后 者 称 为 Item-based CF (Item-based 
Collaborative Filtering) ， 或 者 叫 基于 商品 的 协同 过 滤 。 


除了 邻居 方法 外 ， 目 前 研究 得 比较 多 是 另外 一 类 方法 ， 也 是 第 二 
种 思路 一 一 基于 模型 的 推荐 算法 ， 如 采 读 者 有 兴趣 可 以 在 网 上 搜索 阅 


读 Matirx factorization techniques for recommender systems 这 篇 论文 。 


本 章 重 点 介绍 邻居 方法 作为 思路 的 协同 过 滤 算 法 ， 这 种 算法 也 被 
称 作 基于 邻 域 的 推荐 算法 ， 和 是 一 种 非常 经 典 的 推 荐 算法 思路 。 


13.2 User-based CF 


当 一 个 用 户 进入 一 个 网 店 时 ， 作 为 网 店 系统 找到 那些 和 该 用 户 兴 
趣 (喜好 ) 类 似 的 人 ， 人 然后 看 看 他 们 喜欢 什么 ， 就 给 该 用 户 推荐 什么 
也 许 是 一 种 不 错 的 选择 。 


第 一 步 ， 看 能 不 能 找到 这 样 的 用 户 。 用 户 与 商品 俩 好 如 表 13-1 所 


表 13-1 HP SA mIRE 


FAR ID 白酒 红酒 女装 男装 运动 鞋 
00001 10 7 2 4 

00002 8 8 5 8 
00003 8 6 4 5 
00004 3 8 8 3 
00005 2 5 4 4 

00006 0 9 7 


假设 能 够 得 到 这 样 一 个 用 户 偏 好 的 列表 ， 请 注意 两 点 。 


第 一 ， 这 个 列表 系统 中 本 身 是 不 存在 的 ， 是 需要 对 用 户 的 行为 进 
行 分 析 后 量化 得 到 的 。 其 中 的 茶 个 小 格子 里 的 数 子 是 这 个 用 户 对 该 丙 
品 “ 兴 趣 程度 ”的 一 个 量化 值 ，0 为 没 兴 趣 ，10 为 非常 有 兴趣 。 量 化 的 方 
法 有 很 多 种 ， 而 且 没 有 所 请 最 正确 的 算法 。 得 到 某 个 用 户 对 某 类 别 产 
品 的 兴趣 可 以 从 他 给 产品 的 反馈 打分 上 去 看 ， 也 可 以 从 他 购买 的 频 索 
程度 上 去 看 ， 也 可 以 从 他 浏览 的 频繁 程度 上 去 看 。 在 度量 这 个 值 时 可 


以 只 用 其 中 的 一 种 方法 ， 或 者 对 这 些 方法 都 进行 量化 然后 加 权 平 均 得 

到 。 例 如 ， 可 以 设计 这 样 的 算法 ， 当 一 个 用 户 购 关 了 一 类 商品 ， 这 个 

商品 的 兴趣 程度 就 +1， 当 他 浏览 一 次 这 个 商品 ， 兴 趣 程 度 就 +0.1， 当 他 
给 商品 反馈 以 10 分 制 打分 一 次 ， 这 个 商品 的 兴趣 程度 就 对 应 加 这 个 分 

数 的 20%， 如 购买 日 酒 一 瓶 并 打 10 分 ， 那 束 在 日 酒 一 栏 +2， 加 人 到 10 后 

则 不 再 于 加。 这 可 以 作为 一 个 策略 。 


第 二 ， 商 品 的 分 类 是 可 以 做 调整 的 。 究 竟 是 使 用 日 酒 、 红 酒 、 女 
淡 这 样 的 大 类 ， 还 是 具体 使 用 某 一 个 更 小 的 分 类 ， 甚 至 精确 到 单 品 是 
值得 权衡 的 。 在 使 用 算法 的 过 程 中 一 直 在 做 权衡 ， 计 算 的 效率 、 占 用 
的 空间 和 推荐 的 质量 的 获得 ， 这 些 其 实 是 要 在 实践 中 不 断 比 对 来 做 调 
整 的 。 这 种 调整 ， 包 括 刚才 的 集 略 调 整 ， 是 可 以 用 AB 测 试 来 进行 对 比 
的 ， 关 于 AB 测 试 后 面 将 会 具体 介绍 。 


假设 确实 通过 一 定 的 策略 得 到 了 这 样 一 张 表 ， 这 张 表 里 是 有 一 些 
空 项 的 ， 这 代表 这 个 项 目 系统 还 没有 任何 依据 来 判断 兴趣 如 何 ， 因 为 
系统 也 不 知道 是 用 户 没 有 兴趣 所 以 才 不 浏 咒 ， 还 十 没 来 得 及 浏览 ， 这 
两 个 概念 的 区 分 实在 是 太 暧 昧 了 。 


以 用 户 00001 为 研究 对 象 ， 要 找到 和 他 兴趣 最 接近 的 人 ， 怎 么 做 比 
较 好 呢 ? 这 里 需要 引入 一 个 概念 ， 叫 做 余弦 相似 性 。 


UE GK RI ERAAN, Wie HI RAM cosine Aicos 
(x) 。 初 中 的 时 候 学 余弦 是 在 直角 三 角形 (813-3) 里 ， 一 个 角 的 余 
弦 值 就 是 对 边 长 度 与 斜 边 长 度 的 比 ，x 的 取 值 范围 是 0*~90°。 


C 


图 13-3 直角 三 角形 


到 了 高 中 就 有 了 新 的 定义 ， 并 且 x 的 取 值 范围 可 以 是 在 正 负 无 穷 之 
间 了 ， 而 且 单位 换 成 了 弧度 。 这 里 用 的 也 是 cos 这 个 余弦 函数 的 定义 ， 
即 两 个 向 量 在 空间 的 夹 角 。 


a-b 
cos(a,b) = ——— 
a|: [b| 
式 中 ，a 和 b 都 是 同 量 ， 如 果 听 着 想象 不 出 来 ， 那 我 们 来 个 图 说 明 
一 下 6 


图 13-4 AIZ 


如 图 13-4 所 示 ， 有 两 个 三 角形 ， 这 两 个 三 角形 都 是 直角 三 角形 ，a 
I 是 两 个 三 角形 的 斜 边 。 假 设 下 面 的 三 角形 左 侧 底 角 为 
那么 是 可 以 知道 a 向 量 的 长 度 为 2， 
表示 为 (1, V3) ， 这 也 就 是 两 


向 量 和 b 向 量 分 另 
30*， 上 面 的 三 角形 左 侧 底 角 为 60°， 
而 a 表示 为 (V3，1) ，b 向 量 的 长 度 也 是 2， 
个 向 量 的 顶点 在 平面 直角 坐标 系 里 的 坐标 位 置 。 


用 a 和 b 的 向 量 坐 标 求 a 和 b 夹 角 大 小 ， 代 入 上 面 的 公式 : 


a-b BXDCINGS 


cos(a,b) = 
DUE [yee fe (uy 


i 


杏 反 三 角 而 数 表 ， 可 以 知道 了 230° HR RA, ATLA RIDLEY 
夹 角 为 30°。 这 个 例子 在 图 上 也 能 直接 看 出 来 是 30>， 印 证 起 来 方便 一 


EG o 


cos(a,b) E ad 


eB 这 个 公式 里 ，ab 就 是 两 个 向 量 的 x、y 维 度 各 自 做 了 乘 
积 再 加 和 ， 下 面 的 ,|b| 算 式 其 实 是 两 个 向 量 线段 的 长 度 ， 即 勾 股 定 
PH. x? +y? ° 


adIbp [a] EE le] LR IE, AV) EAA], BS 
得 到 cos (a, b) =1， 而 方向 相反 ， 则 cos (a, b) =-1， 有 兴趣 的 话 我 
们 可 以 用 别 的 值 来 验算 一 下 也 无 妨 。 


再 看 刚刚 的 例子 ， 把 用 户 在 一 些 不 相干 的 商品 类 别 的 爱好 当做 一 
个 空间 向 量 ， 把 每 个 商品 类 别 作为 一 个 维度 ， 就 像 刚 才 的 x 和 y 坐 标 那 
样 。 我 们 试 着 求 一 下 00001 这 个 用 户 和 00002 这 个 用 户 已 知 部 分 的 爱好 
相似 程度 。 


10x8+7x7+2x8+4x5 _ 80+49+16+20 | 9 go 


$240 x48 472482452 V169x/202 — 
因为 知道 最 相似 的 是 1， 最 不 相似 的 是 -1， 所 以 这 个 相似 度 还 是 很 


cos(0000 1,00002) = 


同 理 也 能 够 求 出 00001 用 户 和 其 他 任何 一 个 用 户 的 兴趣 相似 程度 。 


Z Je dx — MABE, 400.8 > 0.85...... ee RC EE RIT A 
E, BANU TARP ea Ale, ELT RET 
购买 的 东西 推荐 给 00001 用 户 作为 推荐 方案 即 可 。 这 束 生 一 种 思路 最 为 
朴素 的 基于 用 户 的 协同 过 滤 算 法 思路 。 


扩展 一 下 ， 除 此 之 外 还 可 以 考虑 这 个 用 户 和 用 户 之 间 相 似 的 同 量 
还 能 怎么 设计 。 用 户 属性 表 如 表 13-2 所 示 。 


表 13-2 用 户 属性 表 


或 许 在 一 些 银行 或 者 理财 产品 售卖 的 机 构 会 有 这 样 的 一 种 列表 ， 
利用 这 种 列表 同样 也 能 够 去 观察 哪些 用 户 之 间 更 相似 ， 然 后 找到 相似 
的 用 户 ， 再 把 这 些 用 户 比 较 辟 好 的 产品 推荐 给 他 。 方 法 有 很 多 ， 后 面 


将 会 介绍 。 


13.3 Item-based CF 


除了 刚才 介绍 的 基于 用 户 的 协同 过 滤 以 外 ， 再 来 看 一 下 基于 商品 
的 协同 过 滤 。 


基于 物品 的 协同 过 滤 算 法 最 早 是 由 著名 的 电 商 公司 亚 蕊 进 提出 
的 。 这 种 算法 给 用 户 扒 大 那些 和 他 们 之 前 喜欢 的 商品 相似 的 商品 。 但 
古 ， 这 种 算法 和 前 面 的 基于 用 户 的 协同 过 滤 算 法 不 一 样 一 一 它 并 不 是 
要 建立 一 个 商品 属性 的 矩阵 来 计算 物品 之 间 的 相似 度 。 其 实 想 想 也 知 
道 这 种 方式 很 可 能 行 不 通 ， 一 来 是 由 于 商品 之 间 的 属性 相关 较 大 ， 做 
起 来 可 能 会 比较 困难 ， 二 来 是 由 于 计算 量 太 大 难以 实现 。 所 以 这 个 算 
法 主要 通过 分 析 用 户 的 行为 来 计算 物品 之 间 的 相似 度 。 


一 句 话 概括 就 是 这 样 : “有 很 多 人 喜欢 商品 A， 同 时 他 们 也 喜欢 商 
品 B， 所 以 A 和 B 应 该 是 比较 类 似 的 商品 。” 这 束 是 整个 算法 的 核心 思 
路 。 


计算 起 来 可 以 分 成 以 下 两 个 步 又 。 
(1) 计算 商品 之 间 的 相似 度 。 
(2) 根据 物品 的 相似 度 和 用 户 的 偏好 来 给 用 户 生成 推荐 列表 。 


这 里 同样 用 到 了 余弦 相似 性 的 概念 ， 但 是 公式 略 有 不 同 : 


N(ACB) 


cos( A, B) = 一 -一 一 
N(A)- N(B) 


解释 一 下 ， 如 采 计 算 商 品 A 和 商品 B 的 相似 性 ， 那 么 吏 计 算 这 个 商 
值 ， 分 子 古 同时 喜欢 A 和 B 两 个 商品 的 用 户 数 量 ， 分 母 古 喜欢 A 的 用 户 
数量 和 喜欢 B 的 用 户 数 量 的 乘积 的 平方 根 。 


如 条 要 得 到 产品 和 用 户 喜 好 数量 的 关系 ， 计 算 过 程 如 下 。 


用 户 00001: SU > thee ` TEER 


FA 00002: 扑克 牌 、 乒 乓 球 、 兵 乓 球 提 


用 户 00003: 乒乓 球 、 兵 乓 球拍 


FAF 00004: HH ` FPR 


用 户 00005: SU ` BH ` EER ^ Ph och 


这 是 一 个 文娱 用 品 商 店 的 销售 记录 ， 记 录 了 每 一 个 用 户 购 买 的 产 
品 内 容 ， 这 里 只 用 5 个 用 户 来 做 一 个 演示 。 

首先 要 分 别 得 到 每 个 用 户 购买 物品 的 邻接 矩阵 ， 如 用 户 00001 购 物 
邻接 和 矩阵 如 表 13-3 所 示 。 


表 13-3 用户 00001 购 物 邻 搂 和 矩阵 


商品 名 称 


Thy hi 


篮球 


E Fr BR 


乒乓 球拍 


用 棋 


足球 


象棋 


th oe! 


EK 


乒乓 球 


乒乓 球拍 
围棋 


足球 


这 个 矩阵 束 古 根据 刚刚 看 到 的 用 户 00001 的 购买 记录 得 到 的 ， 由 于 
象棋 、 扑 元 牌 和 伐 球 同时 出 现在 他 的 购物 列表 里 ， 所 以 “和 象棋 和 了 扑 痪 
牌 *、 “象棋 和 篮球 >、“ 扑 克 牌 和 篮球 ”两 两 “邻接 *»， 也 就 是 说 这 些 标注 1 
的 小 格子 代表 这 两 种 一 起 在 一 个 人 的 购物 记录 里 出 现 过 一 次 一 一 注意 
We, Ne ba HE] 


所 用 的 Apriori 算 法 的 场景 是 不 同 的 。 


同样 能 够 得 到 其 他 儿 个 人 的 购物 邻接 矩阵 。 


用 户 00002 购 物 邻 接 窍 阵 如 表 13-4 所 示 。 


表 13-4 用 户 00002 购 物 邻 搂 和 矩阵 


， 这 一 点 和 关联 分 析 时 


商品 名 称 象棋 扑克 有 牌 VEER 乒乓 球 乒乓 球拍 围棋 足球 
象棋 

th oe he 1 1 

篮球 

乒乓 球 1 1 

丘 乓 球拍 1 1 

Fal pt 

足球 


用 户 00003 购 物 邻 接 窍 阵 如 表 13-5 所 示 。 


商品 名 称 


象棋 


#213-5 ”用 户 00003 购 物 邻接 矩阵 


扑克 上牌 


Fel BE 


象棋 


Th be he 


篮球 
Fe FEB 


乒乓 球拍 


Es pt 


足球 


用 户 00004 购 物 邻 接 和 矩阵 如 表 13-6 所 示 。 


商品 名 称 


象棋 


3&13-6 FHF 00004427 EAR [UE 


扑克 牌 


篮球 


乒乓 球 


乒乓 球拍 


Fi] gc 


象棋 


扑克 牌 


MEER 
乒乓 球 


乒乓 球拍 


Es pt 


足球 


用 户 00005 购 物 邻 接 和 矩阵 如 表 13-7 所 示 。 


表 13-7 ”用户 00005 购 物 邻 接 和 矩阵 


商品 名 称 


扑克 牌 


乒乓 球拍 


围棋 


象棋 1 1 1 
扑克 牌 1 1 l 
篮球 

( 2% ) 
商品 名 称 象棋 th vhi TEER 乒乓 球 乒乓 球拍 ps gt 足球 
Fr Fe BR 
乒乓 球拍 
围棋 1 1 1 
足球 1 1 1 


所 有 的 这 种 邻接 窍 阵 都 是 治 对 角 线 对 称 的 。 


下 一 步 把 这 些 和 矩阵 “二 加 ”在 一 起 ， 即 将 每 一 个 矩 孟 的 每 个 对 应 的 
方 格 数 字 相 加 ， 最 后 得 到 如 表 13-8 所 示 的 中 间 和 矩阵 C 。 


表 13-8 ”中 间 和 矩阵 C 


围棋 足球 


商品 名 称 象棋 Th oe 篮球 乒乓 球 
2 


Thy 2 1 1 


(EK 1 1 


Fr. Fe ek 1 


乒乓 球拍 1 


围棋 1 


足球 1 1 


从 这 个 中 间 和 矩阵 里 ， 可 以 看 到 同时 喜欢 象棋 和 扑克 和 脾 的 有 2 个 人 ， 
同时 喜欢 乒乓 球拍 和 乒乓 球 的 有 2 个 人 ， 同 时 喜欢 围棋 和 象棋 的 有 1 个 
A... FP RE ET PRAY, Bree EAS A es Te 


这 时 如 有 果 对 任意 两 个 商品 的 相似 度 做 评估 ， 如 计算 象棋 和 围棋 的 
相似 程度 ， 套 用 刚才 的 公式 : 


N(A (C B) 


cos( A, B) = ——————— 
N(A): N(B) 


分 子 是 同时 喜欢 围棋 和 象棋 的 人 ， 下 面 两 个 值 N (A) AN (B) 就 
是 喜欢 围棋 和 喜欢 象棋 的 人 _ 这 两 个 值 要 从 前 面 的 购物 记录 里 得 
到 。 


cos( A, B) = «0.5 


象棋 和 围棋 的 相似 度 约 为 0.5。 
再 试 算 一 下 乒乓 球拍 和 乒乓 球 的 相似 度 : 


2 
cos( 4, B) = xul 


Bx 


说 明 相 似 度 极 高 ， 长 球 的 人 必 买 乒乓 球 折 ， 买 乒乓 球 招 的 人 
必 买 乒乓 球 。 


ER (商品 相似 度 ) 如 表 13-9 所 示 。 


表 13-9 ”商品 相似 度 


商品 名 称 象棋 扑克 牌 篮球 fe Fe gk 乒乓 球拍 jp 足球 
象棋 0.71 
扑克 有 牌 82 d 35 0.35 9 0.5 
V EK 

FEER A 1 

乒乓 球拍 

围棋 0.71 
足球 


具体 在 做 推荐 的 时 候 可 以 这 样 使 用 。 


计算 完 中 间 和 矩阵 C 之 后 ， 当 要 对 一 个 用 户 做 推荐 时 ， 先 把 这 个 用 户 
的 历史 购买 记录 都 列 出 来 ， 假 设 有 n 个 购买 记录 。 然 后 对 这 个 列表 里 每 
一 个 产品 都 用 查 表 的 方法 查 一 次 相似 度 ， 这 样 会 得 到 n 个 列表 ， 每 个 列 


表 里 都 是 一 个 产品 和 其 对 应 的 相似 度 的 关系 。 把 这 n 个 列表 做 一 个 排 
序 ， 相 似 度 高 的 在 前 ， 相 似 度 低 的 在 后 。 如 果 要 推荐 3 个 商品 就 取 前 3 
个 ， 如 果 要 推荐 5 个 商品 就 取 前 5 个 。 


13.4 优化 问题 


1. 规 模 和 效率 


早 在 2012 年 时 京东 商城 的 商品 就 已 经 超过 100 万 种 单 咒 了 ， HPV 
超过 5000 万 。 在 这 么 大 规模 的 环境 下 ， 使 用 Item-basedCF 算 法 会 出 现 一 
些 显而易见 的 问题 。 


如 果 有 100 万 种 商品 ， 每 种 商品 都 被 人 买 过 至 少 一 次 ， 那 么 会 产生 
一 个 100 万 x100 万 的 和 矩阵， 也 就 是 10000 亿 个 单位 的 表格 。 如 果 每 个 单 
位 都 用 4 字 节 的 整数 来 计数 ， 光 这 个 表格 就 至 少 要 使 用 3.64TB 的 数据 
一 一 别 说 内 存 了 ， 硬 盘 放 都 困难 。 


其 实 不 妨 想 想 看 ， 这 些 商品 也 许 确实 都 被 人 买 过 ， 但 是 什么 时 候 
买 的 ， 严 的 人 是 经 钊 来 买 还 旦 偶尔 天 了 一 次 其 实 旦 没有 做 任何 区 分 
的 。 然 而 在 一 个 购物 网 站 中 ， 应 该 更 重视 那些 在 网 站 经 常 购买 商品 的 
人 ， 因 为 这 些 人 才 是 真正 的 网 购 习惯 者 ， 另 外 惑 是 近期 被 人 购买 的 商 
品 ， 远 远 比 那些 老 的 过 时 的 或 者 淘汰 的 商品 有 价值 。 那 么 真 的 应 该 挑 
出 100 万 种 商品 做 这 个 邻接 矩阵 的 计算 吗 ? 未 必 ， 而 且 我 也 不 推荐 那样 
做 。 可 以 答 试 着 只 从 活跃 用 户 的 购物 列表 去 找 候 选 产品 ， 也 可 以 从 最 
近 半 年 被 人 购买 的 产品 中 找 候选 产品 ， 也 可 以 两 首 结 合 来 进行 。 


2. 履 盖 率 


f£ltem-basedCF RIL Pita HEP AeA, PERT Er MS 
样 性 的 问题 。 下 面 来 具体 看 一 个 例子 。 


假设 经 过 计算 某 用 户 喜 欢 的 物品 里 有 3 本 不 同 的 书 ，3 件 不 同 的 衣 
服 ，3 盒 不 同 品牌 型 号 的 乒乓 球 。 很 可 能 由 于 购买 乒乓 球 时 融会 天 乒乓 
球拍 ， 导 致 进行 商品 相似 度 计 算 时 ， 给 该 用 户 推荐 的 商品 里 乒乓 球拍 
的 相似 度 总 是 最 高 的 ， 该 用 户 也 只 会 收 到 系统 关于 乒乓 球拍 的 商品 推 
存 ， 而 这 其 实 不 是 我 们 期 望 得 到 的 。 其 次 ， 那 些 热 门 商品 之 间 的 相似 
度 也 会 非常 高 ， 因 为 大 家 在 一 个 时 间 段 内 都 买 这 些 热门 商品 的 概率 比 
较 高 ， 所 以 这 些 商品 之 间 的 相似 度 计 算出 来 目 然 就 比较 高 。 


我 们 期 望 的 不 是 一 个 高 度 收敛 的 推荐 算法 ， 而 是 商品 种 类 要 丰 
富 ， 也 吕 是 商品 的 覆盖 率 要 高 ， 要 保证 它 的 多 样 性 。 这 里 需要 用 到 一 
个 物品 相似 度 的 归 一 化 算法 。 


所 谓 归 一 化 就 是 把 商品 相似 度 窍 阵 做 如 下 变化 : 


ij 


” max w, 


也 就 是 对 每 一 行 的 相似 度 值 和 当前 行 的 最 大 值 计算 一 个 比值 ， 把 
这 个 比值 当 作 新 的 结果 放 在 矩阵 里 ， 变 换 之 后 的 归 一 化 商品 相似 度 矩 
阵 如 表 13-10 所 示 (商品 相似 度 -Norm) ° 


表 13-10” 归 一 化 商品 相似 度 和 矩阵 


商品 名 称 象棋 Th ooh 篮球 乒乓 球 乒乓 球拍 Fs pit 足球 
象棋 0.00 1.00 0.87 0.00 0.00 0.61 0.87 
Thre he 1.00 0.00 0.61 0.43 0.43 0.87 0.61 
ii BR 1.00 0.70 0.00 0.00 0.00 0.00 0.00 
乒乓 球 0.00 0.35 0.00 0.00 1.00 0.00 0.00 
乒乓 球拍 0.00 0.35 0.00 1.00 0.00 0.00 0.00 
围棋 0.70 1.00 0.00 0.00 0.00 0.00 1.00 
足球 1.00 0.70 0.00 0.00 0.00 1.00 0.00 

这 样 直 观 的 感觉 束 是 所 有 原来 相似 度 看 上 去 比较 低 的 值 都 被 拉 高 


了 ， 缩 小 了 兰 距 ， 这 其 实生 对 刚刚 的 忧虑 在 算法 上 做 出 了 一 些 补 做 。 


这 种 补偿 的 思路 如 果 没 有 理解 清晰 ， 可 以 看 如 下 补充 的 例子 。 


在 大 学 里 有 很 多 科目 的 考试 ， 而 对 于 科目 考题 难度 的 设计 通常 比 
较 难 把 握 。 每 一 年 会 由 于 招生 政策 的 变化 以 及 提 档 线 的 变化 导致 生源 
质量 不 同 ， 教材 体 系 改革 会 导致 教材 难度 也 有 不 规律 的 波动 ， 大 学 教 
师 的 教学 水 乎 和 风格 也 会 有 差异 等 。 这 么 多 不 同 的 因素 组 合 在 一 起 ， 
就 有 可 能 引发 一 些 奇 怪 的 现象 ， 如 某 一 年 由 于 考题 设计 太 难 ， 导 致 整 
个 年 级 的 学 生 最 高 分 才 59 分 ， 即 便 可 以 让 他 们 每 个 人 都 算 挂 科 一 次 ， 
但 是 考试 的 选拔 特性 变 得 不 太 好 ， 考 生 之 间 的 档次 也 看 不 出 来 。 


这 里 可 以 进行 一 次 核算 ， 和 刚才 的 公式 一 样 ， 让 这 个 最 高 分 的 59 
分 换算 为 100 分 ， 其 他 各 位 学 生 的 分 数 同样 做 这 种 换算 ， 那 么 束 宇 套用 
WO RAT: 
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畴 ， 而 是 把 原本 分 布 很 罕 的 一 个 分 数 区 间 拉 开 了 ， 证 分 数 和 分 数 、 人 
和 人 之 间 的 距离 感 更 好 ， 便 于 进一步 洲 选 和 分 类 。 这 种 思路 在 算法 中 
会 有 很 多 地 方 有 体现 。 归 一 化 在 第 9 章 中 也 有 使 用 ， 作 用 是 很 相近 的 。 


13.5 ^N 


推荐 系统 是 一 个 综合 的 生产 过 程 ， 几 乎 所 有 用 来 提高 转化 率 的 方 
法 都 可 以 用 来 作为 推 茬 系统 的 一 部 分 。 可 以 采用 在 本 划 中 提 到 的 协同 
过 滤 算 法 ， 可 以 采用 基于 用 户 画 像 的 逻辑 回归 ， 也 可 以 使 用 关键 分 析 
中 的 频 迷 项 集 去 寻找 可 推荐 的 商品 。 


本 章 接 触 到 一 个 新 的 度量 距离 的 手段 ， 就 是 使 用 余弦 相似 度 来 进 
行 度量 ， 这 和 以 前 介绍 的 用 欧 氏 距离 或 曼哈顿 距离 的 方法 是 大 不 一 样 
的 。 余 弦 相 似 度 用 的 是 夹 角 概念 ， 例 如 ， 张 三 买 了 5 双 上 皮鞋， 又 买 了 5 
双 球 鞋 ， 这 样 在 (皮鞋 ， 球鞋 ) 这 两 个 维度 的 向 量 空 间 中 可 以 用 (5， 
5) 来 表示 ; FARTI, MRT SERRE, BLA (3, 3) RR 
7R ° EARO B ATCA Dy TRESS AY ee RS ACH Te, 
但 是 体现 出 来 的 还 都 是 没有 什么 疑义 的 喜爱 ， 这 种 态度 是 明确 的 。 所 
以 在 这 个 空间 中 向 量 (5, 5) 和 向 量 (3, 3) 实际 上 夹 角 是 0， 也 就 是 
余弦 相似 度 为 1 一 一 非常 相似 。 这 种 解释 要 比 求 出 的 欧 氏 距离 2Y2 更 有 
意义 ， 因 为 在 欧 氏 距离 上 同 为 ?2 的 距离 ， 其 向 量 上 所 体现 出 来 的 对 
不 同 物品 维度 的 倾 和 呵 爸 怕 会 有 很 多 不 同 甚 至 是 相反 的 。 如 图 13-5 所 
示 ，AB 线 段 用 来 表示 2V2 的 距离 ， 一 象限 的 两 个 向 量 之 间 的 距离 是 
2V2 ， 二 、 三 象限 的 两 个 向 量 之 间 的 距离 仍然 是 2V2 ， 但 是 从 直观 上 
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问 一 致 性 好 很 多 。 在 这 种 情况 下 是 不 应 该 做 出 距离 相等 的 判断 的 。 


图 13-5” 欧 氏 距 离 不 能 体现 向 量 的 相似 程度 


在 实际 应 用 中 ， 要 注意 多 进行 措 索 ， 评 售 方法 的 有 效 性 和 对 比 测 
试 ， 并 作出 不 断 的 调整 ， 这 样 才能 使 得 算法 准确 程度 不 断 进 化 。 


第 14 章 “文本 挖掘 


文本 挖 据 是 近 几 年 来 越 来 越 火 的 数据 挖掘 方向 。 


对 于 传统 的 结构 化 数据 挖掘 来 况 ， 文 本 挫 据 更 多 的 是 对 目 然 语言 
的 分 析 ， 模 糊 性 强 ， 结 构 性 弱 ， 难 度 大 ， 一 直 都 是 挑战 的 方向 。 


文本 挖掘 一 般 来 说 是 从 大 量 文本 数据 中 抽取 事先 位 置 的 、 可 理解 
的 、 最 终 可 用 的 知识 的 过 程 ， 同 时 运用 这 些 只 是 更 好 地 组 织 信息 以 便 
将 来 参考 。 这 是 一 个 从 非 结 构 化 的 文本 信息 中 寻找 知识 的 过 程 。 


14.1 “文本 挖掘 的 领域 


文本 挖掘 一 般 来 说 有 以 下 7 个 主要 的 领域 。 
(1) 搜索 和 信息 检索 (Information Search, IR) : 存储 和 文本 文 
档 的 检索 ， 包 括 搜 索引 敬 和 关键 字 搜 索 。 
(2) 文本 聚 类 : 使 用 聚 类 方法 ， 对 词汇 、 片 段 、 段 落 或 文件 进行 
分 组 和 归 类 。 


(3) 文本 分 类 :对 片段 、 段落 或 文件 进行 分 组 和 归 类 ， 在 使 用 数 
据 控 掘 分 类 方法 的 基础 上 ， 通 过 训练 来 标记 示例 模型 。 


(4) Web 控 掘 : 在 互联 网 上 进行 数据 和 文本 挖掘 ， 并 特别 关注 网 
络 的 规模 和 相互 联系 。 

(5) 信息 抽取 (Information Extraction, IE) : 从 非 结构 化 文本 
中 识别 与 提取 有 关 的 事实 和 关系 ; 从 非 结构 化 或 半 结 构 化 文本 中 抽取 
出 结构 化 数据 的 过 程 。 


(6) 自然 语言 处 理 (Natural Language Processing, NLP) : 将 语 


— 


言 作 为 一 种 有 意义 、 有 规则 的 符号 系统 ， 在 底层 解析 和 理解 语言 的 任 
25 《如 词性 标注 ) ; 目前 的 技术 主要 从 语法 、 语 义 的 角度 发 现 语言 最 
本 质 的 结构 和 所 表达 的 意义 。 


(7) 概念 提取 : 把 单词 和 短语 按 语义 分 成 意义 相似 的 组 。 


以 上 每 一 个 概念 内 容 部 非常 多 ， 每 一 个 概念 都 能 写 一 本 书 甚至 几 
大 本 书 ， 这 里 主要 对 文本 分 类 及 相关 的 问题 进行 讨论 。 


14? VAG: 


和 其 他 分 类 学 习 的 思路 相似 ， 拿 到 文本 的 样本 后 也 是 要 对 文本 进 
行 样本 类 别 标记 ， 然 后 把 这 些 样本 交 给 计算 机 进行 学 习 。 


文本 分 类 中 训练 的 主要 工作 步骤 如 下 。 


由 于 文本 本 吴 的 非 结构 化 或 者 半 结 构 化 特性 ， 没 办 法 对 一 篇 文章 
直接 做 向 量 标 记 。 所 以 ， 拿 到 一 篇 文章 后 ， 通 常 第 一 步 古 做 分 词 。 而 
后 通过 词义 以 及 词 与 词 的 逻辑 衔接 来 判断 语言 的 意义 或 情绪 。 


分 词 是 在 中 文 文本 处 理 中 遇 到 的 第 一 个 问题 ， 因 为 和 英文 不 一 
样 ， 中 文 是 没 办 法 用 空格 进行 分 词 的 。 所 以 最 早 在 中 文中 壬 试 做 分 词 
忠 是 使 用 类 似 查 字典 的 办 法 ， 用 标点 把 文 草 分 成 多 个 于 句 ， 在 每 个 字 
句 中 推进 式 地 “ 查 词典 ”， 在 词 库 字 典 中 碍 到 的 完整 词 束 从 字句 中 拿 
掉 ， 然 后 继续 同 下 搜索 。 这 种 方式 已 经 淘汰 了 ， 因 为 它 的 查询 非常 机 
械 而 且 不 准确 。 


如 句子 “北京 大 学 是 所 老牌 大 学 。” 这 个 句子 如 果 按 照 这 么 机 械 的 
UATE 00123 BC AUC AE E ER KS”, edb 
所 大 学 ”其 实 是 一 个 专 有 名 词 ， 不 应 该 这 么 划分 。 


而 随 着 计算 机 技术 的 发 展 与 进步 ， 包 括 软件 和 硬件 方面 的 进步 ， 
更 为 科学 和 智能 的 分 词 方式 也 逐步 开发 出 来 ， 即 基于 统计 语言 模型 
(Statistical Language Model, SLM) 的 方式 。 其 中 比较 有 影响 力 的 是 
中 国 科 学 院 计算 所 开发 的 汉语 词法 分 析 系 统 NLPIR 汉 语 分 词 系统 ， 


z 
A 


一 个 开源 的 软件 系统 ， 读 者 有 兴趣 可 以 在 网 上 搜索 并 下 载 。 据 称 这 
产品 的 分 词 精 度 能 够 超过 98%， 中 国人 人 和 名 的 识别 召回 率 也 接近 
98%。NLPIR 在 网 上 是 有 开放 的 在 线 文章 分 析 平 台 以 及 分 词 系统 下 载 
的 。 


补充 介绍 一 下 ， 召 回 率 (Recall) 和 精度 (Precise) 是 广泛 用 于 信 
恩 检 索 和 统计 学 分 类 领域 的 两 个 指标 ， 用 来 评价 结 有 果 的 质量 ， 同 样 这 
两 个 指标 在 推荐 系统 也 得 到 了 广泛 应 用 。 其 中 召回 率 是 检索 出 的 相关 
文档 数 和 文档 库 中 所 有 的 相关 文档 数 的 比率 ， 衡 量 的 是 检索 系统 的 查 
全 率 。 精 度 古 检索 出 的 相关 文档 数 与 检索 出 的 文档 总 数 的 比率 ， 衡 量 
的 是 检索 系统 的 查 准 率 。 


除 此 之 外 还 有 万 丁 解 牛 分 词 融 ， 这 是 一 球 基 于 Lucene 的 中 文 分 词 
右 开 源 软 件 系统 ， 也 古 一 个 开源 的 分 词 器 系统 ， 不 少 熟 悉 Java 和 
Lucene 的 程序 员 应 该 都 对 此 比较 熟悉 ， 在 此 不 做 重点 介绍 ， 读 者 有 兴 
趣 可 以 目 己 去 研究 一 下 。 


2. 文 本 表示 


MARR SE ae OAR ee Ce, AA CAR ARR, Th 
算 机 是 无 法 理解 其 含义 的 。 现 在 用 得 比较 多 的 模型 是 由 Gerard Salton 
和 MecGil 于 1969 年 提出 的 向 量 空间 模型 (Vector Space Model, 

VSM) 


向 量 空间 模型 的 基本 思想 是 把 文档 简化 为 特征 项 的 权重 为 分 量 的 
向 量 表示 : (wy. Wo ao Wy). Rrbw 为 第 i 个 特征 项 的 权重 ， 一 
般 选 取 词 作为 特征 项 ， 权 重用 词 频 表示 。 词 频 分 为 绝对 词 频 和 相对 词 


频 。 
绝对 词 频 ， 即 用 词 在 文本 中 出 现 的 频率 表示 文本 。 


相对 词 频 ， 即 为 归 一 化 的 词 频 ， 其 计算 方法 主要 运用 TF-IDF 公 式 


(Term Frequency-Inverse Document Frequency) 


什么 是 归 一 化 呢 ? 在 第 13 革 中 也 提 到 过 归 一 化 的 问题 ， 束 是 从 绝 
对 数量 转化 成 比例 的 一 种 思路 。 在 TF-IDF 算 法 中 ， 归 一 化 是 为 了 避免 
长 文档 比 短文 档 拥 有 过 多 数量 的 词 频 而 采取 的 方式 。 举 例如 下 。 


词 频 (TF) 是 一 个 词语 出 现 的 次 数 除 以 该 文件 的 总 词语 数 。 假 如 
一 篇 文件 的 总 词语 数 是 100 个 ， 而 词语 “汽车 出现 了 5 次 ， 那 么 < 汽 
车 ”一 词 在 该 文件 中 的 词 频 就 是 5/100=0.05 或 者 说 5%。 一 个 计算 文件 频 
X (IDF) 的 方法 是 测定 有 多 少 份 文件 出 现 过 “汽车 ”一 词 ， 然 后 除 以 文 
件 集 里 包含 的 文件 总 数 。 所 以 ， 如 果 “ 汽 车 ”一 词 在 100 份 文件 出 现 过 ， 


而 文件 总 数 是 10000 份 ， 其 逆 回 文件 频率 就 是 lg (10000/100) =2 ° aX 
后 的 TF-IDF 的 分 数 为 0.05x2=0.1。 其 中 TF-IDF 分 数 和 词 频 和 逆向 文件 
频率 成 正比 。 


也 就 是 说 ， 如 采 某 个 词汇 在 一 篇 文 草 中 出 现 的 频率 TF 高 ， 并 且 在 
其 他 文章 中 很 少 出 现 ， 则 认为 这 个 词汇 有 很 好 的 类 别 区 分 能 力 ， 适 合 
用 来 分 类 ; TF 表示 该 词汇 在 文档 中 出 现 的 频率 ， 而 IDF 则 表示 ， 含 有 
该 词汇 的 文档 比例 越 低 IDF 越 大 ， 则 说 明 该 词汇 具有 越 好 的 类 别 区 分 
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3. 分 类 标记 


分 词 和 分 词 权重 最 后 要 和 分 类 的 标签 之 间 产 生 一 个 映射 天 系 。 而 
描述 这 种 映射 的 过 程 是 需要 算法 来 实现 的 ， 可 以 用 概率 来 实现 ， 也 可 
以 用 基于 回 量 空间 的 回归 来 实现 。 利 用 的 算法 有 Rocchio 算 法 、 朴 又 由 
叶 斯 分 类 算法 、K- 近 邻 算 法 、 决 策 树 算法 、 神 经 网 络 算法 和 文 持 回 量 
机 算法 等 ， 下 面 惑 对 每 种 算法 的 实现 原理 做 一 个 说 明 o 


14.2.1 Rocchio 7E 


Rocchio 算 法 是 一 种 从 感性 上 非常 直观 的 文本 分 类 的 算法 。 


Rocchio 算 法 的 核心 思路 是 给 每 一 个 文档 的 类 别 都 做 一 个 标准 向 量 
一 一 也 有 的 地 方 称 为 原型 向 量 ， 然 后 用 每 分 类 的 文档 的 疝 量 和 这 个 标 
准 癌 量 比 一 下 余弦 相似 度 ， 相 似 度 越 高 越 可 能 属于 该 分 类 ， 反 之 则 不 


例如 ， 在 某 新 闻 网 站 中 ， 布 望 构造 一 个 目 动 的 文章 分 类 系统 ， 屠 
么 先 收集 10000 个 样本 ， 然 后 由 人 给 每 篇 文章 划分 类 别 。 例 如 ， 有 “ 军 
事 类 ”、“ 体 育 类 ”、“ 经 济 类 ”、“ 娱 乐 类 ”、“ 科 技 类 ”等 ， 每 一 篇 文 划 都 
有 至少 一 个 所 属 的 类 别 。 如 “军事 类 ”*， 把 里 面 每 一 篇 文 草 逐个 拿 出 来 
做 分 词 和 回 量 化， 这 样 最 后 “军事 类 ”里 面 的 每 一 篇 文章 都 有 一 个 非常 
长 的 回 量 模型 。 


文章 1: CH, 0.05', ZI, 0.03', RE, 0.01, REF, 
0.03', "RA, 0.01', ‘Bim, 0.01', ...) 
文章 2: (CHWL, 0.03', mæ, 0.01', “IA, 0.02', "Dui, 


0.01', "RI2E, 0.03', "EF, 0.02', ...) 


文章 3: (CAL, 0.02', "EXE, 0.02', WR, 0.02', "FR, 
0.01', NISÉ, 0.02', WA, 0.02', ...) 


后 面 还 可 以 有 很 多 的 文章 样本 。 


在 这 里 为 了 表示 方便 ， 维 度 和 它 的 权重 直接 标 在 一 起 ， 如 坦克 ， 
0.05' 表 示 “ 担 克 ” 这 个 词 的 词 频 为 0.05。 


把 “军事 类 ”所 有 的 文章 进行 各 个 维度 的 平均 ， 也 就 是 对 每 篇 文章 
中 的 “坦克 ”`\“ 侵 略 ”\、“ 战 机 ”`\“ 雷 达 ” 等 词汇 的 词 频 进 行 平 均 ， 会 得 
到 一 个 诸如 这 样 的 向 量 : 军事 类 原型 向 量 : CHE, 0.010', "EE, 
0.003'， 虐 机 ，0.003'，' 临 空 ，0.002'，' 雷 达 ，0.003'，..….) ， 这 个 向 量 
非常 长 ， 可 能 有 几 千 或 者 几 万 维 ， 可 以 把 这 个 原型 向 量 形象 地 称 为 “ 质 
心 ”。 读 者 应 该 也 注意 到 ， 在 文本 挖掘 中 使 用 的 向 量 和 前 面 在 多 维 向 量 
空间 一 章 所 介绍 的 向 量 有 所 不 同 。 在 第 7 章 中 的 向 量 通常 维度 比较 少 ， 
而 且 维 度 的 值 或 为 实数 或 为 枚 举 。 而 在 文本 挖掘 中 用 来 描述 文章 的 向 
量 通常 因 文章 的 不 同 而 不 同 ， 小 短文 也 有 几 百 个 维度 ， 长 文章 可 能 会 
有 上 万 的 维度 。 这 里 面 一 个 词 就 是 一 个 维度 ， 如 “ 坦 元 ”、“ 侵 略 ”、“ 战 
机 ”等 就 是 维度 的 名 称 ， 相 当 于 三 维 空间 的 x、y、z。 后 面 的 0.010、 
0.003、0.002 等 值 是 疝 量 维度 的 值 ， 在 0 和 1 区 间 内 。 


当 有 一 篇 靳 的 文章 要 进行 分 类 时 ， 同 样 进行 分 词 和 向 量化 ， 也 标 
记 成 辐 量 和 词 频 的 形式 。 之 后 号 顺 理 成 草 了 ， 束 是 癌 量 和 疝 量 求 余弦 


相似 性 的 计算 了 。“ 军 事 类 ”、“ 体 育 类 ”、“ 经 济 类 ”、“ 娱 乐 类 ”等 这 些 
文章 类 别 各 目 都 有 一 个 原型 问 量 ， 痢 的 文章 和 它们 逐个 比较 ， 和 谁 相 
似 性 越 高 ， 束 属于 谁 。 


余弦 相似 性 怎么 计算 呢 ? 来 看 以 下 公式 : 


31C1 LR $5C» Tie 


n n 


这 个 公式 和 在 第 13 章 里 接触 到 的 余弦 相似 性 的 计算 规则 非常 相 
似 ， 公 式 中 s 代 表 原 型 各 量 ，c 代 表 待 分 类 向 量 ，s 癌 量 各 自 的 维度 是 sl 
，S2 ，.…，Ssn ，c 回 量 各 自 的 维度 是 cl ，c, ..., cQ “最 后 cos (0) 越 
接近 1 就 说 明 越 相似 ， 越 接近 0 就 说 明 越 不 相似 ， 注 意 这 里 面 没有 小 于 0 
的 情况 。 


Rocchio 算 法 还 有 一 种 改进 的 版 本 ， 在 这 个 版 本 里 ， 某 一 类 文章 不 
仅 有 正 样 本 计算 而 来 的 原型 向 量 ( 正 向 量 ) ， 还 有 根据 负 样 本 ( 非 本 
类 文章 ) 计算 而 来 的 负 向 量 。 在 原型 向 量 计算 的 过 程 中 ， 硕 望 它 尽量 
靠近 正 样 本 而 远离 负 样本 。 


在 做 所 有 的 文本 分 类 实验 之 前 ， 先 要 做 一 个 操作 ， 融 是 从 网 上 下 
载 一 些 文本 作为 训练 样本 ， 在 这 里 选用 20Newsgroup 提 供 的 文本 信 
息 。 它 的 官方 网 站 网 址 是 http://qwone.com/~jason/20Newsgroups/ ， 读 


者 有 兴趣 可 以 再 答 试 访问 该 网 站 阅读 更 多 的 相关 信息 。 


from sklearn.datasets import fetch 20newsgroups 

from sklearn.feature extraction.text import CountVectorizer 
from sklearn.feature extraction.text import TfidfTransformer 
from pprint import pprint 

newsgroups train = fetch 20newsgroups ( 


subset-'train' 


pprint ( 


list ( 


newsgroups_train.target_names) ) 


#20 个 主题 


['alt.atheism' 


'comp.graphics' 


'comp.os.ms-windows.misc' 


'comp.sys.ibm.pc.hardware' 


'comp.sys.mac.hardware' 


'comp.windows.x' 


'misc.forsale'. 


'rec.autos', 


'rec.motorcycles' 


'rec.sport.baseball'. 


'rec.sport.hockey', 


'sci.crypt', 


'sci.electronics' 


'sci.med' 


'sci.space'. 


'soc.religion.christian'. 


'talk.politics.guns'. 


'talk.politics.mideast'. 


'talk.politics.misc'. 


'talk.religion.misc'] 


# 这 里 选取 
4 个 主题 


categories = ['alt.atheism', 


'comp.graphics'. 


'sci.med'. 


'soc.religion.christian'] 
RT 8X 


4 个 主题 里 的 文件 


twenty train = fetch 20newsgroups ( 


subset-'train'. 


categories-categories) 


# 文 件 内 容 在 


twenty_train,data 这 个 变量 


H 


现在 对 内 容 进行 分 词 和 向 量化 操作 


count vect = CountVectorizer () 


X train counts = count vect.fit transform ( 


twenty train.data) 


# 接 着 对 向 量化 之 后 的 


TF - 工 DF 转 换 


7 加 


tfidf transformer = TfidfTransformer 0 


X train tfidf - tfidf transformer.fit transform 


X train counts) 


Rocchio 的 示例 代码 如 下 : 


from sklearn.neighbors.nearest_centroid import NearestCentroid 
# 现 在 把 


TF - 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 


twenty_train.target 放 入 分 类 器 中 进行 训练 


clf = NearestCentroid 0 


.fit ( 


X train tfidf. 


twenty train.target) 


# 创 建 测试 集合 ， 这 里 有 


2 条 数据 ， 每 条 数据 一 行内 容 ， 进 行 向 量化 和 


TF- 工 DF 转 换 


docs new = ['God is love', 


"OpenGL on the GPU is fast'] 
X new counts = count_vect.transform ( 


docs_new) 


X new tfidf = tfidf_transformer.transform ( 


X_new_counts) 


AT 


predicted = clf.predict | 


X_new_tfidf) 


# 打 印 结果 


for doc 


category in zip( 


docs_new. 


predicted) : 


print ( 


'%r => %S' 96 | 


twenty_train.target_names[category]) ) 


Rocchio 算 法 的 缺陷 是 很 明显 的 ， 它 做 了 两 个 假设 ,使 得 它 的 分 类 
能 力 打 了 很 大 的 折扣 。 


假设 一 : 一 个 类 别 的 文档 仅仅 聚集 在 一 个 质心 的 周围 ， 实 际 情况 
往往 不 是 如 此 。 


假设 二 : 训练 数据 是 绝对 正确 的 ， 因 为 它 没 有 任何 定量 衡量 样本 
征 否 含有 噪声 的 机 制 ， 错 误 的 分 类 数据 会 影响 质心 的 位 置 。 


14.2.2 ”朴素 贝 叶 斯 算法 


朴 聂 贝 叶 斯 算法 关注 的 是 文档 属于 茶 类 别 的 概率 。 文 档 属 于 菏 个 
类 别 的 概率 等 于 文档 中 每 个 词 属于 该 类 别 的 概率 的 综合 表达 式 。 而 每 
个 词 属于 该 类 别 的 概率 又 在 一 定 程度 上 可 以 用 这 个 词 在 该 类 别 训练 文 
档 中 出 现 的 次 数 ( 词 频 信息 ) 来 粗略 估计 ， 因 而 使 得 整个 计算 过 程 可 
行 。 使 用 朴素 贝 叶 斯 算法 时 ， 在 训练 阶段 的 主要 任务 束 是 估计 这 些 
值 。 


所 以 前 两 步 仍 然 是 分 词 和 同 量 化 。 


贝 叶 斯 概率 公式 如 下 : 
P(x|D,)P(D,) 


Y Pa D,)P(D,) 


P(D, |x)=— 


上 式 是 完整 的 贝 叶 斯 概率 公式 ， 简 写 的 朴素 贝 叶 斯 概率 公式 如 
d 
P(A|B)P(B)-P(BA)P(A) 
上 式 指 的 是 在 全 样本 空间 里 ， 独 立 事件 B 发 生 的 概率 乘 以 在 B 发 生 
的 情况 下 发 生 A 的 概率 ， 等 于 独立 事件 发 生 A 的 概率 乘 以 在 A 发 生 的 情 


况 下 发 生 B 的 概率 。 


如 采 研 究 两 个 事件 的 条 件 概率 关系 用 这 个 简化 厂 的 公式 肯定 是 一 
目 了 然 的 ， 那 么 在 文章 分 类 里 怎么 用 呢 ? 


目 先 ， 如 有 果 能 够 统计 某 个 词 在 某 类 别 文章 中 出 现 的 概率 ， 就 用 P 
(Di |x) 来 表示 ， 如 x 是 “军事 类 ” (肯定 还 有 y 分 类 “体育 类 ”，z 分 
类 “经 济 类 ”等 ) ，D 表示 某 一 个 词 的 词 频 ， 如 D1 表示 “雷达 ”的 词 频 ， 
那么 (Dy |x) 束 表 示 “ 军 事 类 ”文革 中 出 现 “ 雷 达 ” 的 概率 。 除 了 “ 雷 
达 ” 以 外 ， 肯 定 还 有 很 多 其 他 词 癌 量 的 词 频 统计 ， 所 以 殉 有 很 多 的 P 
(Dj ly) ^ P Di) 来 分 别 表示 它们 在 “体育 类 ?或 “经 济 类 "文章 中 的 
每 个 词 的 词 频 。 


IREA, WE RAI MAA BI, AVRIL EES 
类 ”的 文章 中 ， 可 能 也 出 现在 其 他 小 说 或 者 广告 、 科 普 读 物 里 。 那 
么 “雷达 ”出 现在 “军事 类 ”、“ 体 育 类 ”、“ 经 济 类 ”文章 中 的 概率 用 P 
(xD) ^P (y[D) ^P (zlD1 ) 来 表示 ， 如 有 10000 篇 “军事 类 " 文 
章 ， 其 中 有 500 篇 提 到 了 雷达 ， 那 P (xD) 就 是 0.05; 除 此 之 外 ， 也 
可 以 求 出 每 一 个 P xD) ^P (YD) ^P D) 等 。 


总 结 来 说 ， 步 又 如 下 。 


(1) 对 训练 文章 进行 分 词 和 向 量化 。 


(2) 对 所 有 文章 类 别 计算 P (Djp) ^P (Djly ^P jz) 


Ag 
XE 


(3) 对 竺 分 类 的 文章 进行 分 词 和 向 量化 。 


(A) 用 待 分 类 文章 的 词 向 量 中 的 每 个 词 计算 P (xID; ) 、P (yD, 
D; 


) ^P D) 等 。 


需要 强调 的 是 ，P (x|D; ) 可 不 是 计算 一 个 值 ， 而 是 计算 整个 词 同 
量 中 所 有 的 词 ， 如 果 词 向 量 有 1000 个 元 素 ， 那 么 Di SUED, 到 Dilooo | 
这 1000 个 词 都 要 进行 计算 。 


(5) 计算 概率 ， 看 看 待 分 类 文章 属于 哪个 类 型 的 文章 概率 最 大 。 


这 个 部 分 计算 的 时 候 要 注意 计算 技巧 ， 如 计算 一 个 完整 的 词 向 量 
D, 到 Di1000 属于 x 类 的 概率 ， TA FB: 
P(Dj]x)-PQDx)PCQD,|x):- PD, oX) 
解释 一下 ，P (D x) 中 出 现 完整 词 向 量 D, 所 有 元 素 的 概率 就 是 
出 现 每 个 词 的 概率 相 乘 ， 这 个 思考 方式 跟 扔 硬币 没 区 别 。 


对 P (Dj|x) P (x) =P (xD) P (Dj) 的 含义 也 就 好 理解 了 吧 ， 
S WE CT RE: 


P(D, | x)P(x) 


P| B= = 


P (x|D; ) 就 是 有 要求 的 ， 完 整 的 词 癌 量 Di 最终 属于 x 文章 分 类 的 概 


P (Dj) 可 以 设 为 1， 因 为 对 于 已 经 拿 到 的 待 分 类 文本 ， 所 有 的 词 
频 发 生 概率 就 已 经 是 1 了 。 


P (Dp) 的 含义 我 们 刚刚 解释 过 。 


P (x) 是 所 有 训练 文章 中 x 类 文章 出 现 的 概率 。 如 果 每 个 类 别 的 
文章 都 用 一 样 多 的 数量 来 训练 ， 如 “军事 类 ”、“ 体 育 类 ”、“ 经 济 类 ”各 
100 篇 ， 那 所 有 的 P (x) ^P (y ^P (z) 值 都 一 样 ， 都 是 


100 1 
100+100+100 3 。 在 这 个 公式 里 ， 所 有 的 类 别 最 后 都 是 互相 比 P (XID, 


) ， 一 个 分 类 的 P (xlD; ) 越 大 就 说 明 这 篇 文章 属于 这 个 分 类 的 概率 越 
大 ， 每 个 分 类 P (x) 都 一 样 大 的 情况 下 ， 那 就 可 以 都 不 乘 了 ， 直 接 化 
简 成 P (xD) =P (Dp) 。 要 记 住 ， 必 须 是 所 有 类 别 的 文章 训练 样本 
的 数量 一 样 多 的 时 候 才能 做 这 个 简化 。 


在 前 面 介绍 朴素 贝 叶 斯 分 类 的 时 候 提 到 过 ， 在 Python Scikit-learn 
库 中 文 持 高 斯 裤 和 聚 贝 叶 斯 、 多 项 式 朴 素 贝 叶 斯 和 伯 努 利 朴 素 贝 叶 斯 3 种 
朴素 贝 叶 斯 分 类 算法 。 在 这 里 使 用 多 项 式 村 素 贝 叶 斯 来 做 文章 分 类 ， 
完整 的 例子 如 下 : 


# 在 


了 


Scikit-learn## 


ET LARA, Ae nr 


Inh 
n» 


合 做 文本 分 类 


好 


from sklearn.naive_bayes import MultinomialNB 
# 现 在 把 


TF- 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 


twenty_train.target 放 入 分 类 器 中 进行 训练 


clf = MultinomialNB 0 


.fit ( 


X train tfidf. 


twenty train.target) 


# 创 建 测试 集合 ， 这 里 有 


2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 


TF - 工 DF 转 换 


docs new = ['God is love', 


"OpenGL on the GPU is fast'] 


X new counts = count vect.transform ( 


docs new) 


X new tfidf = tfidf transformer.transform ( 


X new counts) 


TERRI 


predicted - clf.predict | 


X new tfidf) 


# 打 印 结果 


for doc 


category in zip( 


docs_new. 


predicted) : 


print | 


twenty train.target names[category])» 


天 于 分 类 的 问题 可 以 扩展 一 下 ， 每 篇 文章 的 分 类 可 能 不 是 只 有 一 
个 “军事 类 ”`\“ 体 育 类 ”等 类 别 ， 而 可 能 是 多 个 标签 组 合 描述 的 主题 性 
或 情绪 性 分 类 说 明 ， 例 如 ， 在 一 篇 文章 里 可 以 同时 标 出 “军事 *"、“ 科 
技 ”、“ 颂 扬 ” 等 标签 ， 也 可 以 标 出 “经 济 ”、“ 局 势 *、“ 翡 观 ” 等 标签 。 对 
于 主题 性 或 情绪 性 的 分 类 ， 利 用 朴素 贝 叶 斯 算法 同样 可 以 进行 分 类 标 
识 ， 这 样 在 文章 分 类 时 文章 所 赋予 的 分 类 也 更 加 丰富 。 


= 


14.2.3 ”KK- 近 邻 算法 


K- 近 邻 算法 和 天文 全 称 为 K-Nearest Neigbours， 也 有 的 资料 上 会 写 
作 KNN 算 法 。 


K- 近 邻 算 法 的 思路 是 ， 没 有 必要 去 总 结 原 型 问 量 ， 只 需 原始 的 训 
练 样本 ， 这 些 样本 具有 最 基础 最 原始 而 且 准 确 的 癌 量 信息 ， 因 此 此 算 
法 产生 的 分 类 咽 也 叫做 “基于 实例 ”的 分 类 闫 。 


流程 如 下 ， 拿 到 训练 的 文章 样本 之 后 ， 对 每 个 样本 都 进行 分 词 和 
问 量 化 。 然 后 在 给 定 新 的 行 判 定 文章 后 ， 算 法 对 该 文档 也 进行 分 词 和 
回 量 化 ,不同 的 地 方 在 后 面 的 操作 上 “。 这 个 行 判 定 的 文章 的 同 量 会 和 
所 有 训练 的 样本 进行 癌 量 特征 比 对 ， 也 号 是 相似 度 比 对 ， 这 样 会 得 到 
它 与 所 有 训练 样本 的 相似 度 排 名 列表 。 把 K 定 为 一 个 变量 ， 从 这 个 列 
表 中 找 出 相似 度 最 高 的 K 篇 文章 ， 根 据 这 K 篇 文章 的 类 别 分 布 投票 决定 
这 篇 竺 判定 的 文章 更 像 哪 种 分 类 。 


这 个 方法 看 上 去 很 答 单 ， 其 实 根本 束 没 有 模型 训练 的 成 分 在 里 
面 ， 但 是 还 是 一 分 为 二 地 来 看 这 种 方法 。 


它 的 优点 : 因为 这 种 方法 可 以 区 服 Rocchio 算 法 中 无 法 处 理 线性 的 
缺陷 ， 同 时 “训练 成 本 "也 非常 低 一 一 其 他 分 类 方法 进行 算法 和 模型 调 


整 时 要 重新 对 所 有 的 分 类 文本 进行 全 局 计算 ， 而 这 种 算法 只 需要 对 某 
个 已 有 的 训练 文档 进行 删除 ， 或 者 加 入 新 的 训练 文档 ， 这 个 训练 的 分 
类 规则 束 同 时 发 生 了 变化 。 


它 的 缺点 : 也 是 非常 致命 的 ， 就 是 计算 成 本 比较 高 。 如果 要 计算 
一 篇 竺 分 类 的 文章 ， 束 要 将 它 和 所 有 的 训练 样本 进行 比较 。 如 采 有 100 


下 面 给 出 应 用 的 代码 以 供 参考 : 


from sklearn.neighbors import KNeighborsClassifier 
# 找 出 相似 度 最 高 的 


# 现 在 把 


TF - 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 


twenty_train.target 放 入 分 类 器 中 进行 训练 


clf = KNeighborsClassifier ( 


15) 


.fit ( 


X train tfidf, 


twenty train.target) 


HO NGA. XH 


tH 
ay 


2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 


TF - 工 DF 转 换 


docs new = ['God is love'. 


'OpenGL on the GPU is fast'] 
X new counts = count vect.transform ( 


docs new) 


X new tfidf = tfidf transformer.transform ( 


X new counts) 


TERRI 


predicted - clf.predict | 


X new tfidf) 


# 打 印 结果 


for doc 


category in zip ( 


docs_new. 


predicted) : 


print ( 


'%r => %S' 96 | 


doc, 


twenty_train.target_names[category]) ) 


14.2.4 ”支持 癌 量 机 SVM 算 法 


文 持 向量 机 在 第 10 章 已 经 介绍 过 。 在 该 草 市 中 讨论 的 是 一 种 通用 
性 的 线性 分 类 紫 构 造 原则 ， 不 管 有 多 少 维 的 数据 ， 只 要 发 现 线性 不 可 
分 ， 束 可 以 映射 到 高 一 维度 的 空间 去 构造 一 个 超 平面 。 


在 文章 分 类 里 ， 同 样 可 以 应 用 这 样 的 方式 ， 只 要 已 经 理解 了 SVM 
的 解 题 思 路 ， 理 解 它 在 文章 分 类 中 的 应 用 融 不 会 困难 。 


前 面 说 过 ， 拿 到 文章 以 后 ， 要 进行 分 词 和 回 量 化 ， 回 量化 之 后 ， 
一 篇 文章 束 会 变 成 一 个 儿 千 维 或 者 几 万 维 的 同 量 。 这 些 同 量 在 空间 上 
的 划分 和 g (v) =wv+b 这 样 的 超 平 面 用 法 一 样 ， 几 乎 没有 任何 区 别 ， 
只 是 v 的 维度 会 非常 多 而 已 。 


总 体 来 说 ，SVM 分 类 句 的 文本 分 类 效果 很 好 ， 可 以 认为 是 最 好 的 
分 类 器 之 一 。 它 有 很 多 优点 ， 如 通用 性 较 好 ， 分 类 精度 高 ， 分 类 速度 
快 ， 分 类 速度 与 训练 样本 个 数 无 关 ， 在 查 准 和 碍 全 率 (精度 和 召回 
X) 方面 都 优 于 KNN 及 朴素 贝 叶 斯 方法 。 但 是 它 也 有 缺点 ， 如 SVM 训 
练 速度 很 大 程度 上 受到 训练 集 规模 的 影响 ， 计 算 开 销 比 较 大 ， 针 对 
SVM 的 训练 速度 问题 ， 研 究 者 提出 了 很 多 改进 方法 ， 包 括 Chunking 方 
法 、Osuna 算 法 、SMO 算 法 和 交互 SVM 等 。 


前 面 在 介绍 SVM 一 节 中 提 过 ，SVC 所 支持 的 核 画 数 包括 linear (£X 
HKO ^ poly 《多项式 核 画 数 ) 、rbf GAMK ` sigmoid 
(神经 元 激活 核 画 数 ) ^ precomputed (HAE KERR) 。 其 中 ， 径 向 
基 核 函数 rbf 和 线性 核 男 数 linear 是 人 们 在 生产 生活 中 用 得 最 频 索 的 两 种 
核 函 数 。 对 于 文章 分 类 ， 一 般 推 荐 使 用 线性 核 函数 linear， 这 种 核 函 数 
计算 效率 极 高 ， 对 文章 分 类 的 准确 性 也 非常 高 


这 里 也 给 出 一 个 用 SVM 算法 进行 文章 分 类 的 例子 : 


from sklearn import svm 
# 现 在 把 


TF - 工 DF 转 换 后 的 结果 和 每 条 结果 对 应 的 主题 编号 


twenty_train.target 放 入 分 类 器 中 进行 训练 


# 这 里 使 用 线性 支持 向 量 分 类 


]inear， 对 文章 分 类 效果 比较 好 


clf = svm.SVC ( 


kernel='linear') 


.fit ( 


X_train_tfidf 


twenty_train.target) 


| 
a 


FOEMRRA, x8 


2 条 数据 ， 每 条 数据 一 行内 容 ， 然 后 进行 向 量化 和 


TF - 工 DF 转 换 


docs new = ['God is love', 


"OpenGL on the GPU is fast'] 
X new counts = count_vect.transform ( 


docs_new) 


X new tfidf = tfidf_transformer.transform ( 


X_new_counts) 


# 预 测 


predicted = clf.predict | 


X_new_tfidf) 


# 打 印 结果 


b 


for doc 


category in zip( 


docs new. 


predicted) : 


print ( 


'%r => %S' 96 | 


doc, 


twenty_train.target_names[category]) ) 


由 于 篇 幅 有 限 ， 本 章 只 介绍 了 文本 分 类 方面 的 内 容 ， 文 本 分 类 十 
网 站 进行 傅 情 分 析 、 偏 好 猜测 等 行为 的 重要 手段 ， 读 者 掌握 基本 方法 


请 注意 ， 一 般 来 说 ， 文 章 越 短 分 类 的 难度 越 大 ， 准 确 性 越 差 。 这 
赁 直觉 也 能 感觉 出 来 ， 一 句 很 短 的 话 肯定 是 能 够 在 很 多 类 型 的 文章 中 
都 有 机 会 读 到 的 ， 那 么 这 样 的 句子 是 几乎 没有 办 法 去 判断 主旨 内 容 
的 ， 要 想 知道 主旨 内 容 还 是 要 通过 大 量 的 上 下 文 。 


第 15 草 ”人工 神经 网 络 


人 类 对 于 人 工 智 能 领域 的 研究 随 着 其 他 各 领域 尤其 古 信息 科学 的 
进步 而 快速 进步 。 现 在 在 工厂 生产 线 上 看 到 的 机 器 人 其 实 是 比较 “ 弱 
吞 ” 的 机 器 人 ， 因 为 它 基 本 只 能 根据 人 给 它 的 固定 指令 去 做 固定 的 动作 
组 合 ， 所 以 称 它 为 "机械手 臂 " 也 许 更 为 贴切 。 而 要 想 进行 比较 深层 的 
FAK, HIRERE RAE Ee ATR o 


当 人 们 意识 到 人 脑 的 工作 方式 与 数字 计算 机 有 着 极 大 不 同时 ， 人 
们 就 逐渐 开始 研究 “人 工 神经 网 络 ” (Artificial Neural Network, 
ANN) ,希望 能 够 从 仿生 学 的 角度 给 这 种 研究 带 来 新 的 动力 。 所 
请 < 人 法 地 ， 地 法 天 ， 天 法 道 ， 道 法 自然 踢 *。 从 自然 中 学 习 和 寻求 规 
律 有 时 比 冥 想 要 更 有 智慧 。 


明 潜水 艇 的 灵感 。 人 们 同样 期 望 从 研究 人 的 神经 网 络 中 获得 更 多 高 
级 、 智 能 化 的 数据 处 理 思路 和 经 验 。 


人 脑 是 人 们 到 目前 为 止 发 现 的 ， 最 令 人 叹为观止 的 信息 处 理 系统 
了 。 人 脑 在 加 减 乘除 方面 的 计算 速度 上 可 能 赶不上 很 多 单片机 ， 但 是 
在 很 多 特殊 场景 的 运算 中 却 是 高 级 计算 机 无 法 比拟 的 ， 如 模式 识别 


(声音 识别 、 图 像 识别 等 ) 。 


[1] 出 目 《 道 德 经 ; 道 经 第 二 十 五 章 》。 


151 人 的 神经 网 络 


大 脑 征 人 的 神经 最 为 天 键 和 核心 的 部 分 ， 也 同样 是 所 有 和 用 椎 动物 
门 的 动物 最 到 贯 的 “财产 ”。 人 类 参 养 各 种 宠物 ， 如 狗 或 猫 ， 条 件 比 较 
富 容 的 人 还 会 驼 养 马 、 厌 等 ， 主 要 原因 也 征 由 于 这 类 动物 更 加 通 人 
性 、 聪 明 、 互 动感 好 ， 容 易 与 人 的 交流 形成 配合 。 也 有 一 些 养 乌 、 养 
BA, EZEN TMS OS aA NE o TRATED 
FERRER AAR TMD ELEC, (AA LA IEEE IBSBI e 3x HE 
无 一 例外 ， 都 是 有 有 椎 动物 门 的 动物 ， 都 有 大 脑 。 


通过 大 量 的 解剖 研究 ， 人 们 逐渐 对 神经 网 络 的 组 成 原理 有 了 更 多 
的 认识 ， 并 开始 竹 试 着 解读 神经 网 络 的 奥秘 所 在 。 


现在 流通 的 痪 料 里 ， 关 于 人 体 神 经 元 数量 的 估算 还 十 莫衷一是 ， 
但 是 有 一 个 数字 大 家 基本 认可 ， 即 人 的 大 脑 皮 层 里 有 神经 元 约 140 亿 
个 ， 人 的 全 映 有 数 百 亿 到 上 千 亿 个 神经 元 。 


神经 网 络 有 以 下 几 个 非 第 优秀 的 特 上 后 。 
(1) 大 规模 并 行 分 布 式 结构 。 


(2) 神经 网 络 的 学 习 能 力 以 及 由 此 而 来 的 泛 化 能 


泛 化 这 一 点 很 重要 ， 它 是 指 在 遇 到 一 些 没有 在 训练 中 遇 到 的 数据 
时 仍然 可 以 得 到 合理 的 输出 ， 这 一 点 在 第 8 草 等 章 世 同样 所 到 过 。 


具备 这 两 种 强大 的 信息 处 理 能 力 让 神经 网 络 可 以 为 一 些 当前 难以 
处 理 的 复杂 问题 找到 一 些 好 的 近似 解 。 


15.1.1 神经 网 络 结构 


KB REE ARERR AAA? 可 以 认为 ， 这 吏 是 一 种 
极 复杂 的 计算 过 程 。 

研究 表示 ， 人 类 感受 到 的 快乐 是 由 脑 神经 元 之 间 通 过 多 巴 胺 进行 
信息 传递 来 获得 的 。 


瑞典 人 阿尔 维 德 :卡尔 森 (Arvid Carlsson) 由 于 确定 多 巴 胺 为 脑 内 
信息 传递 者 的 角色 获得 了 2000 年 诺 贝 尔 医学 奖 。 


大 量 的 多 巴 胺 能 够 让 人 人 兴奋、 快乐 ， 而 缺少 多 巴 胺 的 人 通常 情绪 
低落 ， 甚 至 会 令 人 失去 控制 肌肉 的 能 力 ， 严 重 会 令 病 人 的 手脚 不 目 主 
地 震颤 或 导致 由 金森 开 症 。 


让 人 产生 多 巴 胺 的 行为 有 很 多 ， 如 吃 甜 食 、 适 度 运 动 等 。 而 令 人 
谈 虎 色 变 的 毒品 通 第 有 着 极 强 的 多 巴 胺 “制造 ”能 其 实 是 让 细胞 
里 的 多 巴 胺 存量 大 量 释放 出 来 ， 让 人 在 短 时 间 内 产生 极 大 的 快感 。 


图 15-1 Z&EBmm 


多 巴 胺 的 分 子 结构 如 图 15-1 中 所 示 。 多 巴 胺 的 化 学 式 如 下 : 
C.H,(OH),-CH,-CH,—NH, 


这 个 化 学 式 很 复杂 ， 在 计算 机 二 进 制 系统 里 找 不 到 能 对 其 模拟 得 
惟 妙 惟 首 的 传递 介质 ， 二 进 制 系统 里 只 有 0 和 1 这 种 存储 和 传输 介质 ， 
更 别 说 在 神经 元 细胞 内 部 的 “计算 ”是 怎么 样 的 计算 了 ， 更 让 人 捉摸 不 
透 的 是 让 我 们 产生 快感 的 计算 是 怎么 做 的 ， 我 们 只 能 在 有 限 的 认识 内 
对 这 种 算法 进行 模拟 。 


人 的 神经 细胞 如 图 15-2 所 示 ， 枝 枝 权 权 很 多 ， 远 远 看 上 去 一 边 比 
较 粗大 一 边 比较 纤细 。 最 上 羔 粗 大 的 一 边 就 古 细胞 体 的 所 在 ， 细 胞 体 
上 有 一 些小 校 权 叫做 树 突 ， 细 长 的 一 条 像 尾巴 一 样 的 东西 叫做 轴 突 。 
不 同 细胞 之 间 通 过 树 突 和 轴 突 相互 传递 信息 ， 它 们 的 接触 点 叫 突 触 ， 


准确 地 说 是 由 一 个 细胞 的 轴 突 通过 突 触 将 信号 传递 给 另 一 个 细胞 的 树 


图 15-2 人 的 神经 细胞 \ 见 彩 择 ) 


神经 细胞 用 化 学 信和 号 传递 信息 ， 如 多 巴 胺 ， 其 过 程 非 淀 复杂。 这 
里 用 二 进 制 的 电子 计算 机 模拟 ， 为 了 模拟 起 来 比较 方便 ， 我 们 只 认为 
大 脑 的 神经 细胞 有 两 种 状态 : 兴奋 和 抑制 ，1 为 兴 香 ，0 为 抑制 。 


一 个 神经 元 兴奋 和 抑制 的 信号 十 由 这 个 神经 元 的 树 突 来 影响 的 ， 
因为 树 突 是 接受 外 界 刺激 的 ， 刺 激 强烈 神经 元 整 兴 盏 ， 刺 激 不 强烈 神 
经 元 殉 抑 制 。 一 个 神经 元 有 很 多 的 树 突 ， 这 些 树 突 其 实 可 以 同时 接受 
多 个 其 他 神经 元 送 过 来 的 刺激 信号 ， 这 些 信号 经 过 一 系列 复杂 的 计 
算 ， 最 终 产 生 一 个 确定 的 兴奋 或 者 抑制 的 结果 ， 这 些 突 触 之 间 有 的 古 
通过 化 学 信号 进行 信号 传递 的 ， 有 的 是 通过 电信 和 号 进行 信号 传递 的 ， 
但 是 这 并 不 重要 ， 反 正 建 模 时 只 能 用 类 似 0 和 1 的 方式 来 模拟 。 


人 脑 的 神经 细胞 工作 频率 非常 低 ， 大 概 只 有 100Hz， 这 比 20 世 纪 
80 年 代 末 流行 的 286 计 算 机 的 20MHz 主 频 还 差 了 20 万 倍 。 但 是 神经 细 
胞 数量 巨大 ， 并 且 并 行进 行 独立 的 处 理工 作 ， 这 让 大 脑 具备 很 惊人 的 


特点 ， 如 能 够 进行 融 效 的 无 监督 学 习 ， 模 式 识别 等 。 


[1] 图 片 来 源 于 百度 地 图 。 


15.1.2 ”结构 模拟 


既然 已 经 了 解 到 神经 元 的 工作 方式 ， 不 妨 设计 一 个 和 它 的 工作 方 
式 近 似 的 电子 信号 处 理 系统 ， 如 图 15-3 所 示 。 


15-3 ”由 神经 元 模拟 的 电子 信号 处 理 系 统 


它 有 5 个 输入 的 树 突 (也 可 以 是 3、4 个 树 突 ， 也 可 以 是 6 个 或 者 更 
多 ， 这 里 设计 成 5 个 没有 特别 的 目的 ，， 有 一 个 轴 突 ， 而 中 间 的 部 分 负 
责 进行 计算 。 当 5 个 树 突 输入 的 内 容 合适 时 ， 让 轴 突 输出 1 一 一 兴 
反之 让 轴 突 输出 0 一 一 抑制 。 可 以 让 每 个 树 突 上 的 输入 数字 做 加 和 来 模 
拟 这 个 计算 兴 理 或 者 抑制 的 过 程 ， 每 个 刺激 都 是 0 或 1， 也 融 是 来 目 其 
他 神经 元 细胞 的 刺激 ， 刺 激 的 值 为 5。 为 了 让 树 突 上 的 刺激 有 所 区 
别 ， 可 以 考虑 给 每 个 树 突 输入 的 值 乘 以 一 个 权 值 ， 这 个 权 值 同 样 是 一 


个 [-1，1] 之 间 的 小 数 ， 权 值 标注 为 w;。 后 面 如 果 不 做 说 明 ，wi; 的 取 值 
MixETE[-1, 1]DC[R], x 就 是 0 或 1。 


设置 激励 画 数 为 5 ET ， 作 为 整个 过 程 的 模拟 。 


从 函数 的 定义 域 上 看 ，f (x) 的 范围 应 该 在 [-5，5] 之 间 。 可 以 记 
作 前 面 写 的 连 加 和 的 形式 ， 也 可 以 记 作 后 面 写 的 和 窍 阵 内 积 的 形式 ， 含 
义 是 完全 一 样 的 ， 看 过 第 10 章 的 读者 尤其 不 会 陌生 。 


整个 函数 产生 的 结果 最 终 还 会 继续 去 刺 油 其 他 函数 一 一 毕 苋 要 连 
成 网 络 ， 所 以 还 要 让 轴 突 产生 的 输出 函数 为 1 或 0。 所 以 在 最 终 输出 之 


前 还 需要 一 个 环节 ; 


output = | l jo n 
f(x)< 


对 f (x) 进行 一 下 加 工 ， 如 有 果 相 加 的 和 大 于 等 于 0 就 认为 是 兴奋 状 
态 ， 如 有 果 小 于 0 殉 认 为 是 抑制 状态 。 


好 了 ， 如 采 到 这 里 你 还 是 觉得 一 头 雾 水 ， 那 么 我 只 能 说 “ 虽 ， 真 的 
很 正常 ， 想 当年 都 是 这 么 过 来 的 。" 我 们 现在 手 里 有 了 一 个 世界 上 最 弱 
的 神经 网 络 细胞 ， 注 意 ， 真 的 只 是 一 个 细胞 而 已 。 下 面 来 斌 一下， 看 
这 个 细胞 能 不 能 完成 机 器 学 习 的 工作 。 


15.1.3 ”训练 与 工作 


和 一 般 的 分 类 算法 一 样 ， 使 用 人 工 神经 网 络 进行 分 类 时 同样 需要 
先进 行 训练 ， 即 便 征 一 个 神经 元 也 是 要 训练 的 。 


训练 过 程 大 致 如 下 。 
(1) 初始 化 权重 。 随 机 设置 wi 的 大 小 ， 即 设置 初始 的 每 个 树 突 
上 的 权重 。 先 给 定 一 个 任意 值 ， 如 都 征 1。 
(2) 训练 。 给 定 输入 各 x; 的 大 小 和 对 应 的 output 输 出 值 ， 这 是 一 
组 样本 。 和 需要 给 定 很 多 组 样本 ， 这 束 是 学 习 的 过 程 。 
仔细 看 一 下 这 个 过 程 : 


P 一 W 1X 1 TI VX H V 3X3 WíAX4qTWsX5 


E pl 7 三 0 
lo /0)<0 


有 没有 觉得 特别 眼熟 。 非 常 像 回 归 对 不 对 ? 知道 目 变 量 ， 知 道 画 
数值 ， 用 计算 的 方法 算出 这 些 待定 的 系数 。 没 错 ， 这 个 跟 回 归真 的 殉 
征 如 出 一 攻 。 在 8.1 和 曾经 讨论 过 用 最 小 二 乘法 来 计算 待定 的 系数 ， 那 
么 在 现在 这 个 例子 里 能 不 能 用 同样 或 者 类 似 的 办 法 来 解决 问题 呢 ? 答 


output 


案 是 肯定 的 ， 只 是 这 一 类 回归 不 是 线性 关系 的 ， 它 在 回归 分 析 中 是 有 
确切 的 名 词 定义 的 ， 这 种 二 项 分 布 形 的 回归 叫 作 逻辑 回归 (Logistic 
Regression) 。 风 辑 回 归 判 断 的 方式 比较 单纯 ， 束 如 同 我 们 在 刚刚 的 例 
子 说 的 这 样 ， 有 一 些 输入 的 目 变 量 ， 分 类 结果 只 有 两 类 ， 即 针对 要 分 
类 的 目标 ， 要 么 是 这 一 类 ， 要 人 么 不 是 这 一 类 。 


除 此 之 外 还 像 什么 ? 像 不 像 在 支持 癌 量 机 SsVM 里 看 到 的 超 平 面 的 


定义 ? 


SVM 算 法 是 为 了 寻找 一 个 g (v) =wv+b 的 超 平面 ， 其 中 Vv 就 是 一 个 
n 维 的 癌 量 ，n 可 以 是 1 到 无 穷 的 任何 一 个 整数 ， 其 实 当 n 等 于 5 时 ， 丈 与 


yo 


y-Wi X1 TW» X» TW3 X3 十 W4 X4 十 W5 X5 的 形式 很 相近 ， 内 十 这 小 (v) 


展开 以 后 是 y=wi X1 TW» X» TW3 X3 十 W4 X4 十 W5 X5 +b, 变量 具体 用 x 还 是 
用 y、z 来 表示 并 不 重要 ， 关 键 症 它们 在 处 理 问 题 上 的 逻辑 ， 仔 细 看 
看 ， 思 路 都 是 尝试 找 一 个 “ 超 平 面 ”。 


以 二 维 空间 上 的 超 平面 2x+5y+4=0 为 例 ， 经 过 变形 就 成 了 y=-0.4x- 
0.8。 其 实 也 就 是 g (v) =2xj 45x, +4， 如 图 15-4 所 示 。 


图 15-4 y=-0.4x-0.8 的 图 形 


三 维 空间 上 的 超 平面 4x+y-2z+6=0 经 过 变形 就 成 了 z=2x+0.5y+3。 


其 实 也 就 是 g (v) =4x1 +x) -Xx3 +6， 如 图 15-5 所 示 。 


v| 


fife} +) {Q 
E 
/ 


! 


= | 
x |-10.0000]10.0000| 


[z |-32.4449 32.4449 


15-5 z=2x+0.5y+3H AZ 


y-W, X, *W; X +W3 X3 +W4 X4 +Ws Xs +b 公 式 里 的 b 这 一 项 ， 可 以 这 
么 理解 ， 完 全 是 在 超 平面 糙 率 定好 后 为 了 调整 截 距 而 设置 的 ，b 恒 等 于 
0 的 情况 下 就 是 让 超 平 面 永远 通过 原点 。 所 以 在 不 同 的 资料 上 会 看 到 两 
种 表达 方式 ， 而 且 后 者 更 常见 : 
y=wX tw Xo WaX3t Warat Wsxs 
y=w,X,+wx,+w,x,+w,x tw x,+b 


这 种 单 细 胞 人 工 神 经 网 络 一 般 用 来 处 理 手 写 识别 、 垃 圾 邮件 分 
类 、 人 金融 欺诈 行为 、 网 络 注册 用 户 是 否 真实 等 问题 。 


具体 的 方式 在 10.5 节 已 经 进行 过 比较 详细 的 讨论 了 ， 用 SVM 算法 
去 解决 甚至 更 好 ， 因 为 它 最 厉害 的 地 方 是 能 够 映射 到 高 维 去 解决 线性 
不 可 分 的 问题 。 


神经 网 络 和 SVM 解 决 问题 的 思路 的 不 同 之 处 在 于 ， 在 线性 不 可 分 
时 ，SVM 会 映射 到 高 维 去 划分 超 平面 ， 而 神经 网 络 是 增加 输入 的 变 
量 、 网 络 的 层次 、 输 出 层 。 


15.2 FANN 库 简介 


在 人 工 神 经 网 络 算法 的 编写 过 程 中 ， 可 以 考虑 目 己 一 行 一 行 去 做 
代码 实现 ， 也 可 以 使 用 开源 的 人 工 神 经 网 络 算法 库 ， 以 把 精力 集中 在 
建 模 工 作 上 。FANN 库 就 是 众多 人 工 神经 网 络 库 之 一 。 


FEANN 是 一 个 开源 的 神经 网 络 模型 库 ， 全 称 是 Fast Artificial Neural 
Network Library。 它 是 用 C 语 言 编写 的 ， 运 行 高 效 ， 而 且 可 以 支持 模拟 
单 层 、 多 层 的 各 种 全 连接 和 半 连 接 网 络 。2.1 版 本 以 上 的 FANN 支 持 包 
括 C#、Java、PHP、Python 等 超过 20 种 计算 机 语言 的 黑 盒 式 调用 ， 使 用 
非常 方便 。 它 最 强大 的 特性 之 一 是 支持 多 种 GUI， 这 种 用 户 界面 的 友好 
ZI HALE SEXO - 


图 15-6 |") 用 来 做 网 络 搭建 的 FANN Tool 1.2 的 界面 。 


Mus NS | 
PR Sees) ( EE" MEN 
Traning Method - [FANN TRAN_RPROP -| 


e 
| _Actwaton Functon (Hidden): [FANN SIGMOID SYMMETRIC -| 
; i  Activabon Function (Output) [run siGMOID. SYMMETRIC ”| 


图 15-6 FANN Tool 1.2 


另 一 种 FANN 官 网 推荐 的 专门 做 神经 网 络 搭建 的 可 视 化 工具 是 Agiel 
Neural Network, 4415-7 2! 所 示 。 
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图 15-7  Agiel Neural Network 


FANN 的 中 文 资料 少 得 可 怜 ， 要 想 做 更 多 的 了 解 还 是 推荐 前 往 其 官 
方 网 站 阅读 瑞 文 原文 。 网 站 地 址 : http://leenissen.dk/fann/ ° 


FANN 的 特性 如 下 ， 后 面 将 会 有 基于 FANN 库 做 算法 实现 的 例子 。 
使 用 C 语 言 编写 的 多 层 人 工 神 经 网 络 库 。 

:有 反 疝 传播 训练 。 

-进化 型 拓扑 训练 ， 可 动态 建立 并 训练 人 工 神经 网 络 。 

- 极 易 使 用 。 


-极其 快速 〈 据 称 比 其 他 的 人 工 神 经 网 络 框架 快 150 倍 ) 。 


ARINE TE, ERARA WY NE PS 


文档 完备 。 


. 跨 平 台 性 良好 ， 支 持 Linux 和 UNIX 以 及 Windows 平 台 使 用 的 dl 


.实现 多 种 不 同 动态 画 数 。 


-可 以 便捷 地 存 取 完 整 人 工 神经 网 络 模型 。 


:有 多 种 易 用 的 例子 。 


可 以 在 模型 中 兼容 译 点 型 和 整 型 变量 。 


:具有 极 好 的 缓存 优化 。 


:开源 并 遵从 LGPL 协 议 。 


:具有 易 用 性 的 训练 数据 框架 。 


:具有 图 形 界面 。 


: 文 持 多 种 语言 调用 。 


WAVER E. ° 


[1] 3€ BHIFANN 官方 网 站 。 


[2] Fd Fri T sourceforge.net ° 


15.3. ”常见 的 神经 网 络 


神经 网 络 模型 发 展 到 今天 有 了 很 多 变种 ， 据 说 已 有 不 少 于 70 种 的 
不 同 神经 网 络 模型 。 


常见 的 人 工 神经 网 络 模型 有 以 下 几 种 。 


Jas 428 (Perceptron) ， 在 前 面 接触 到 的 “ 单 细 胞 ”的 神经 网 络 
(应 该 叫 神经 元 更 合适 ) 就 是 感知 器 网 络 最 简单 的 形式 。 


- 按 误 差 逆 传播 算法 训练 的 多 层 前 馈 网 络 (Back Propagation, BP 
神经 网 络 ) 。 


: 自 组 织 特 征 映 射 神经 网 络 (Self-Organizing Feature Map, 
SOM) ° 


‘Hopfield 24 ° 
: 玻 尔 北 曼 机 (Boltzmann Machine) ° 
. 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 。 


还 有 很 多 其 他 的 网 络 模型 ， 形 式 各 异 ， 偏 重 也 不 同 ， 适 应 场景 
不 尽 相同 。 


15.4 ”BP 神经 网 络 
BP 神经 网 络 是 指 误差 逆 传 播 算法 训练 的 多 层 前 馈 网 络 ， 听 起 来 名 
字 很 喝 吴 ， 但 是 构建 的 思路 很 简单 。 


如 图 15-8 所 示 为 两 层 的 BP 神经 网 络 《只 有 隐 含 层 和 输出 层 是 参与 
计算 和 权 值 调整 的 节点 层 ) ， 当 然 可 以 有 更 多 的 层次 、 更 多 的 节点 ， 


这 里 只 是 示意 性 介绍 构建 思路 。 


x 


DX 


J 
CENE ZEA CO 
RX FRX 
= NN ^ 
AJE 隐 含 层 输出 层 


15-8 ”两 层 的 BP 神经 网 络 


15.4.1 ”结构 和 原理 


在 “ 单 细胞 "的 神经 网 络 里 ， 实 际 上 只 有 一 层 ， 即 最 后 的 输出 层 。 
在 图 15-8 中 有 两 层 ， 第 一 层 每 个 节点 的 输入 都 是 一 样 的 ， 都 是 xj ^x, 
、x3、x4、xs。 每 个 节点 的 超 平面 都 可 以 用 g (v) =wv+b 来 表示 ， 也 
BE ELy sw x, two x, wx joo tWe Xe +b s LEER, BRETT 
点 最 后 输出 的 函数 只 有 1 或 者 0 两 个 状态 ， 所 以 在 很 多 资料 上 会 看 到 以 
下 写法 。 


激活 函数 为 Logistic 函 数 : 
] 


1+ e C» 


f(v) = 


BI EE ANE, (ESA Ae ERU ^ 


JJ) = g/ 0-7 


l 
seem ) 这 个 画 数 其 实 le Flew v+b 这 两 个 画 
数组 合 变量 代 换 形成 的 ， 把 t 代 换 进 去 ， 就 变 成 了 f v) 的 形式 ， 虽 然 
变量 名 不 同 但 是 函数 值 和 自 变量 的 关系 没有 发 生 任何 变化 。 


JO = 


t=w v+b 在 SVM 里 已 经 介绍 过 。 RF 的 图 形 如 图 15-9 所 


l 
l+e’ 的 图 形 


piso 07 


比 0.5 大 时 函数 就 是 1， 比 0.5 小 时 函数 就 是 0。 


也 有 地 方 写成 以 下 形式 : 
l 
TUN 0 — 
l+e 


其 中 m 是 可 以 调整 的 正 整 数 ，m 越 小 曲线 越 平 级，m 越 大 曲线 越 立 
陡 ， 分 类 边界 越 明 显 。 有 具体 在 每 个 应 用 里 怎么 去 取 mm 值 可 以 依 情况 而 
， 如 果 需 要 边界 区 分 非常 明显 ， 那 束 把 m 设 大 一 些 。 


ai 


] 
POSTTE 画 数 图 形 如 图 15-10 所 示 。 


1 
一 
图 15-10 ^U “Tyre? 的 图 形 


— SS 


S(t) = ipa 函数 图 形 如 图 15-11 所 示 o 


I(t) 


图 15-11 +e 的 图 形 


E ji 
所 以 对 于 7 Deo BDI, BRAS AREAS E 
1 和 0 两 种 丽 数 值 ， 而 这 里 面 待定 的 (或 者 说 没 确定 的 ) 就 是 w 这 个 抵 
阵 ， 这 就 是 在 网 络 训练 中 需要 决定 的 。 要 知道 最 后 每 个 节点 都 有 丽 数 


l 
(o ’) = 7173 I= He ^ a Y, N a 
CT ee 99 ， 而 且 每 个 节点 之 间 都 可 能 完全 不 一 样 。 而 且 从 前 面 


网 络 拓扑 图 的 结构 可 以 想象 ， 前 面 一 层 的 输出 结 末 作 为 后 面 一 层 市 上 
的 输入 ， 最 后 一 层 的 输出 是 5 个 不 同 的 1 或 0， 也 束 是 说 这 个 网 络 最 多 标 
识 32 种 不 同 的 分 类 一 一 因为 2 的 5 次 器 束 是 32， 它 没 办 法 标识 更 多 的 分 
类 ， 除 非 增加 市 点 的 数量 。 


15.4.2 ”训练 过 程 


前 面 讨 论 了 结构 ， 现 在 讨论 的 是 调整 这 个 网 络 上 各 个 市 点 上 各 
个 “ 树 突 * 上 的 权 值 。 


这 里 还 是 布 望 找 到 一 种 方法 ， 能 够 让 设置 好 的 各 个 权 值 能 够 匹配 
尽 可 能 多 的 训练 样本 的 分 类 情况 ， 让 误 判 的 情况 尽 可 能 少 ， 这 是 大 原 
则 ， 和 线性 回归 中 和 希望 残 过 尽量 小 的 思路 站 完全 一 样 的 。 当 时 用 的 是 
最 小 二 乘法 的 方案 ， 而 最 小 二 乘法 的 思路 是 ， 如 采 把 误 兰 表示 成 样本 
做 目 变 量 的 男 数 ， 然 后 用 求 极 值 的 方法 来 推导 束 可 以 找 出 这 个 误 老 最 
小 情况 下 的 各 种 系数 值 了 。 很 握 运 ， 在 BP 神经 网 络 的 w 权 值 确定 中 同 
样 可 以 用 这 种 思路 来 完成 。 


对 于 完整 的 训练 过 程 ， 看 上 去 像 在 曲线 上 找 驻 点 的 过 程 ， 这 里 试 
关 解 释 一 下 这 个 过 程 。 下 面 这 个 推导 过 程 看 上 去 比较 复 淋 ， 如 琳 看 不 
明日 直接 记 结 论 即 可 ， 推 导 细 证 可 以 忽略 。 


(1) 误差 计算 。 
E er ET LAN Jh —Wih Xi tb, 9 
隐 含 层 节 点 的 输出 为 hu=f (hj) 。 


输出 层 节点 的 输入 为 y, Wh hg +b, ° 


HT AAR Ay, =f (yj) 。 


变量 统一 化 ， 这 样 的 表示 可 以 把 两 层 的 输入 输出 串 起 来 ， 里 面 的 Xi 


^ Win ^ Who 7 ho E Yo 都 是 同 量 
Edi Yoi 
38 P] ZR RE RAN 


Iz Tu. ; 
E => EB => (a -=P 


^ i=l = i=l 

也 就 是 说 ， 给 定 n 个 训练 样本 ， 误 差 就 是 训练 中 给 出 的 分 类 和 学 习 
后 分 类 函数 输出 的 分 类 的 差 值 ， 然 后 平方 再 加 和 。 这 个 过 程 与 求 方差 
差不多 ， 反 正 最 后 的 原则 很 清楚 ， 方 差 尽 可 能 小 ， 最 好 是 零 。 如 果 在 
设置 了 隐 含 层 和 输出 层 的 权 值 后 ， 这 个 等 式 的 值 很 小 ,在 期 望 的 误差 
范围 之 内 即 可 ， 如 果 超 过 了 误差 范围 台 需 要 调整 一 通常 不 太 可 能 一 
次 就 把 值 都 设置 正确 。 这 个 函数 前 面 本 喘 是 没有 1/2 的 ， 这 里 特意 配 了 
一 个 1/2 在 里 面 ， 第 一 不 会 影响 函数 的 单调 性 ， 第 二 ， 在 求 导 时 能 够 去 
i, E EEB E - 


(2) 反 向 传播 。 然 后 对 这 个 误差 函数 进行 求 导 求 偏 微分 ， 这 里 只 
给 出 价 单 的 推导 过 程 。 


输出 层 误差 俩 微分 


其 中 
] . 
ap 952.44 Va) 
= i=l = -(d ; ae Voi )y, 一 -(d, m Mat Jf (y,) - E 
Oy, = O(w, h, +b.) =" 
OW, OWng Í 
那么 
aE OED y, 
OW,, Cy, OW, "- 
误差 的 梯度 


Pi d, -Fa Qi ) 
隐 含 层 误 差 偏 微分 
OE _ OE 6h, 


^ E a x 
Ow, Oh Ow, 


方法 和 输出 层 的 推 寻 完全 一 样 : 


ae FRC oh, 
oh, oh, ch, 


" 1 4 $ 
eh ch, 


o 


= {dy - xf Oy" 


Oh, 
= —Ó Wa, f (yj) 


= —ó, 


ch, _ Ow Vi X; *b) _ 
OW, Ow, 


那么 


0,=(0,) Vin) F "(h i) 
(3) 权 值 修正 。 


隐 合 层 更 新 : 

Wig = Who +6,h, 
输出 层 更 新 : 

witt—w" +76,x, 


ECBNAERSNÜUGATC, N+1 ZN ANTAL 。 


15.4.3 ”过 程 解释 


整个 BP 网 络 的 训练 过 程 我 们 用 通俗 的 话 解 释 一 下 。 


首先 先 设置 两 套 w 作 为 两 层 网 络 各 自 的 “ 超 平面 "的 系数 ， 然 后 输 
入 一 次 完整 的 训练 过 程 ， 就 会 有 一 个 误差 值 出 现 ， 因 为 给 出 的 w 很 可 
能 不 合 


JE o 


接着 就 是 一 次 一 次 地 进行 w 的 调整 。 调 整 方法 是 ， 首 先 用 类 似 最 
小 二 乘法 的 方式 ， 找 到 一 个 误差 和 自 变量 的 关系 ， 然 后 求 误差 极 值 。 
误差 极 值 存在 的 点 就 是 误差 最 小 的 点 ， 这 和 回归 分 析 的 最 小 二 乘法 思 
路 几乎 一 样 。 


只 是 在 最 后 的 = wi teh Fwy" = wh nds, 两 个 公式 里 ， 用 的 
是 试探 性 的 方法 。+75,% 和 +15,h 是 一 种 试探 的 “ 步 长 "， 第 一 次 分 别 
ET Wo 和 win ， 如 果 有 误差 ， 就 试 着 往 误差 小 的 一 边 “ 走 一 步 "， 如 
果 还 不 够 小 就 再 “ 走 一 步 "， 这 就 是 一 次 一 次 迭代 的 目的 。 最 后 找到 一 
个 误差 满足 要 求 的 点 ， 把 这 一 点 的 wpo 和 wa 都 记录 下 来 ， 网 络 就 训练 


ET o 


alt 


这 种 用 步 长 试探 的 思路 在 10.6 节 也 介绍 过 ， 当 时 把 这 种 方式 称 为 
梯度 下 降 法 。 


15.4.4 “示例 


这 里 给 出 一 个 具体 的 BP 神 经 网 络 训练 和 使 用 的 示例 。 


在 一 些 经 典 的 有 关 BP 神 经 网 络 的 应 用 中 都 会 看 到 关于 手写 识别 的 
算法 。 这 里 用 它 入 手 来 感受 一 下 BP 神经 网 络 工作 的 过 程 。 实 验 流程 如 
下 。 


(1) 准备 训练 图 片 。 


(2) 模型 训练 。 


(3) 判定 验证 。 


具体 操作 如 下 。 


(1) 准备 训练 图 片 。 


准备 如 图 15-12 所 示 的 6 组 不 同 子 体 、 不 同 颜 色 、 不 同 大 小 的 数 
字 。 在 这 里 我 是 用 EXCEL 来 做 的 ， 大 家 目 己 在 实验 的 过 程 中 也 同样 可 
以 寻求 其 他 的 方法 。 


(2) 把 这 些 数 字 所 在 的 方 格 ， 一 共 60 个 ， 都 保存 成 BMP 位 图 格 
式 的 图 片 文件 。 文 件 命 名 时 ， 从 上 到 下 用 A、B、C、D、E、EF 来 表示 


ZH I| , 用 1、2、3、4、5、6、7、8、9、0 来 表示 数字 ， BD 


REFERERER 
1121314151617181910 


图 15-12 ”训练 图 片 


A1.bmp ` A2.bmp ` A3.bmp ^ ...... ^ A9.bmp ` A0.bmp ° 


B1.bmp ` B2.bmp ` B3.bmp ` ...... ` B9.bmp ` B0.bmp ° 


F1.bmp ` F2.bmp ` F3.bmp ^ ...... ^ F9.bmp ^ FO.bmp ° 


还 可 以 考虑 用 英文 字符 “A”、“B”、“C” 作 为 识别 对 象 ， 还 可 以 考 
虚 用 中 文 的 “ 甲 ”、“ 乙 ”、“ 丙 ”等 汉字 作为 识别 对 象 ， 原 理 是 完全 一 样 
的 。 


(3) 对 图 像 进 行 二 值 化 处 理 。 图 像 本 身 是 由 很 多 像素 点 构成 的 ， 
在 本 例 中 ， 使 用 的 是 32x32 的 像素 矩阵 。 每 一 个 像素 点 都 有 一 个 灰 度 
值 ， 灰 度 值 是 0，255] 区 间 的 一 个 整数 值 。 一 个 点 的 灰 度 越 靠近 255， 
则 说 明 这 个 点 颜色 越 深 ， 反 之 如 采 一 个 点 的 灰 度 越 靠近 0， 则 说 明 这 个 
所 颜色 越 浅 。 


需要 通过 图 像 二 值 化 处 理 把 所 有 的 图 片 变 成 二 值 化 后 的 图 片 ， 也 
下 古 每 个 像素 点 做 一 个 “ 非 黑 即日 ”的 归 类 设置 ， 要 么 设置 成 黑色 ， 要 
么 设置 成 白色 。 


image 


name) 


image = image.convert ( 


image.save ( 


"new_"+name) 


image = image.point (| 


lambda x 


WHITE if x>128 else BLACK 


image = image.convert ( 


image. save ( 


经 过 上 面 这 段 代码 的 处 理 ， 所 有 的 图 片 文件 都 已 经 变 成 了 二 值 化 
后 的 图 片 ， 每 张 图 片 中 的 每 个 像素 都 是 非 黑 即 白 ， 如 图 15-13 所 示 。 


图 15-13 ”二 值 化 后 的 图 片 


注意 上 面 代 码 中 x> 128 这 个 部 分 。 虽 然 可 以 选择 0 到 255 中 的 任何 
值 作为 判断 黑 日 的 分 水 岭 ， 但 是 选择 时 要 注意 ， 如 果 这 个 值 设置 得 太 
高 ， 那 么 很 多 颜色 浅 的 训练 样本 丈 会 丢失 人 信息， 导致 模型 失真 。 如 果 
设置 得 太 低 ， 那 么 如 采 图 片 背 景 的 颜色 不 是 日 色 ， 而 是 有 一 些 浅 颜色 
的 背景 噪声 ， 那 么 这 些 点 束 会 被 当成 有 效 信息 来 训练 模型 ， 同 样 会 误 
导 模 型 。 具 体 选 多 少 合适 ， 需 要 根据 实际 生产 生活 中 的 具体 情况 去 分 
析 ， 这 里 仅 作 参考 。 


然后 束 可 以 把 图 片 一 个 一 个 传递 给 训练 算法 做 训练 了 ， 传 递 时 还 
是 一 个 向 量 v 和 分 类 f (v) 之 间 的 关系 。 


以 new_F5.bmp 这 个 图 片 为 例 ， 如 图 15-14 所 示 ， 这 个 图 片 在 32x32 
像素 的 位 图 模式 下 放大 来 看 如 图 15-14 (a) 所 示 ， 看 上 去 很 模糊 ， 


为 边 绿 上 的 一 些 为 了 产生 视觉 过 渡 效 采 的 中 间 色 也 被 二 值 化 成 了 
f& o 


(a) 二 值 化 后 的 图 片 (b) 将 图 片 的 每 个 2x2 像 系 
作 )J 1 个 M: 本 输 人 单位 


图 15-14 new_F5.bmp 图 片 


将 32x32 像 素 的 图 片 的 每 个 2x2 像 素 作 为 1 个 基本 输入 单位 ， 这 样 
一 来 ， 就 有 16x16 个 基本 输入 单位 了 ， 也 惑 是 256 个 基本 输入 单位 。 


那么 输入 向 量 束 可 以 确定 格式 了 ， 整 个 图 从 左上 到 右 下 每 一 个 单 
位 都 作为 一 个 v 的 维度 ， 这 样 输入 的 训练 向 量 v 束 是 一 个 拥有 256 个 维度 
的 同 量 了 。 每 个 维度 的 值 的 确定 如 图 15-15 所 示 。 


图 15-15 ”确定 每 个 维度 的 值 


这 4 个 像素 中 的 黑色 像素 数 作 为 维度 值 整 可 以 了 ， 例 如 上 面 这 4 个 
输入 单位 的 像素 闫 色 分 别 就 对 应 着 1、2、2、0 这 4 种 输入 ， 以 此 类 推 ， 
256 个 维度 的 值 都 能 确定 下 来 。 刚 刚 这 个 5 避 ® 可 以 转化 成 这 样 一 个 256 维 
WHET: 


0000000 00 0 0 0 0 0 0 0 


而 5 对 应 的 分 类 回 量 可 以 设置 为 


0000100000 


以 此 类 推 ，0 对 应 的 是 


0000000001 


7 对 应 的 是 


0000001000 


这 样 一 来 ， 所 有 的 图 片 向 量 和 所 有 的 图 片 对 应 的 数字 分 类 都 能 够 
一 一 对 应 起 来 ， 把 这 些 训练 样本 按照 FANN 的 要 求 存 入 文件 ， 用 下 面 


的 代码 (注意 不 是 把 图 片 直接 传递 给 FANN 去 做 运算 ， 是 数字 向 量 文 
本 ，FANN 的 安装 请 见 附录 E) 


#make_training_data.py 
f = open ( 


'train.data'. 


'wt') 


print »»f. 


len ( 


result). 


256, 


10 
for input, 


output in result: 


print »»f. 


input 
print »»f, 


output 


开始 训练 : 


#train_ann.py 
connectionRate = 1  # 神 经 层 连 接 率 为 


100%) 


learningRate = 0.008 #%>)%h 


0.008 
desiredError = 0.004  # 期 望 错误 率 为 


0.001 
maxIterations = 10000  # 最 多 进行 


10 000 次 和 迭代 


iterationsBetweenReports = 100 


# 每 间隔 


1H 


100R E— FAA 


inNum- 256 #256 #47 


i 


hideNum = 64  # 隐 藏 层 为 


64 个 神经 元 


outNum-10  # 输 出 


NO 
ay 


工 0 个 神经 元 


class NeuNet (| 


neural net). 


def _ init ( 


self). 


neural net. init (| 


self) 


neural_net.create_standard_array ( 


self. ( 


inNum 


hideNum. 


outNum) ) 


def train on file ( 


self. 


fileName) : 


neural_net.train_on_file ( 


self. 


fileName. 


maxIter-ations. 


iterationsBetweenReports. 


desiredError) 


主 程序 部 分 : 


if name == " main ^". 


ann = NeuNet () 


ann.train on file ( 


"train.data") 


# 读 取 训练 向 量 文件 


ann.save | 


"number recognize.net") 


# 将 模型 存储 到 文件 


一 般 不 会 直到 10000 次 才 满 足 条 件 退 出 ， 几 百 次 就 已 经 让 误差 率 低 
于 期 望 误差 的 0.001 了 ， 这 时 训练 自动 会 结束 。 


#test_recognize.py 
if name == " main_": 


ann = NeuNet () 


ann.create_from_file ( 


"number_recognize.net" 


# 读 取 模型 文件 创建 分 类 模型 (ZR) 


data = read test data 0 


# 读 取 测 试 数据 


for k, 


v in data.iteritems () : 


k = string_to_list ( 


k 
v = string to list ( 
v) 
result = ann.run ( 
k) 
print euclidean distance ( 
V, 


result) 


Hua 18 FHtest recognize.pyl A Bete TRA ARE, TERI 
BER o oU CP Re HTS MED RNA CHS Be E 
HOE AA 25628 I] S ZH. ^ HM ASR AR ee AE DS T8] Ba — OS 
或 多 个 待 分 类 的 结 采 。 


一 般 来 说 ， 训 练 的 样本 越 多 ， 数 字 书 写 的 样式 越 丰 富 ， 分 类 就 越 
准确 。 我 们 在 这 个 环节 可以 目 己 和 神经 网 络 做 个 小 游戏 ， 看 看 焉 和 焉 扭 
扭 的 阿拉 伯 数 字 小 网 络 于 不 买账 ， 如 末 不 买账 那 束 继续 拿 这 些 至 至 扭 
扭 的 数字 继续 训练 它 ， 学 会 了 为 止 。 
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玻 尔 兹 曼 机 (Boltzmann Machine) 最 经 典 的 应 用 是 用 来 解决 货 即 
担 问 题 。 在 前 面 遗 传 算法 的 部 分 介绍 过 TSP 问 题 ，Traveling Salesman 
Problem， 即 旅行 商 问题 ， 也 叫 货 即 担 问 题 。 货 即 担 问题 用 遗传 算法 是 
可 以 解决 的 ， 某 些 介绍 遗传 算法 的 材料 中 也 对 玻 尔 兹 曼 机 和 模拟 退火 
算法 做 了 介绍 。 玻 尔 效 曼 机 的 网 络 模型 与 BP 神 经 网 络 模型 的 结构 没有 
什么 区 别 ， 也 可 以 有 两 层 或 者 多 层 ， 只 是 训练 的 方式 不 太一 样 。 


15.5.1 退火 模型 


模拟 退火 算法 (Simulated Annealing, SA) 最 早 的 思想 是 由 梅 特 罗 
波 利 斯 (N.Metropolis) 等 人 于 1953 年 提出 。 到 了 1983 年 ， 柯 克 帕 特 里 
克 (S.Kirkpatrick) 等 人 在 研究 优化 组 合 问题 时 发 现 ， 组 合 优化 求解 极 
小 值 与 金属 热处理 工艺 中 的 退火 过 程 具有 很 大 的 相似 性 ， 于 是 他 们 创 
造 了 模拟 退火 算法 。 


属 材料 热处理 中 使 用 的 一 个 名 词 ， 表 示 把 钢铁 缓慢 烧 热 


JR GE SE 
一 定 瘟 度 后 保持 一 段 时 间 ， 然 后 再 慢 慢 以 一 定 的 速度 把 温度 降下 


到 


退火 这 个 过 程 在 物理 学 上 是 有 原理 解释 的 ， 大 概 过 程 是， 一 开 
始 ， 金 属 内 部 原子 和 原子 之 间 是 有 一 定 的 不 力 和 引力 的 ， 这 样 形成 了 
一 定 的 势能 (有 的 材料 上 又 叫 内 能 或 者 应 力 ) ， 这 是 一 种 相对 不 稳定 
的 状态 。 通 过 加 热 的 过 程 ， 让 大 量 的 原子 开始 运动 离开 原来 的 位 置 ， 
然后 随 着 温度 的 降低 ， 原 子 的 运动 速度 也 没有 原来 那么 快 了 ， 最 后 达 
到 稳定 的 状态 ， 而 这 个 稳定 的 状态 通常 都 苹 比 一 开始 的 状态 势能 要 低 
的 。 退 火 之 后 的 金属 通 和 更 柔韧， 不 易 开 和 狸 或 变形 ， 切 削 性 能 更 好 。 
为 了 获得 更 好 的 退火 后 的 金属 性 能 ， 通 常 退 火 会 进行 儿 次 。 


如 采 觉 得 从 炼 钢 的 角度 不 好 理解 ， 那 就 理解 为 在 一 个 底部 不 规则 
的 大 位 和 爹 里 有 很 多 形状 不 规则 的 积木 。 在 不 做 特殊 处 理 的 情况 下 ， 积 
木 中 间 其 实 是 有 活动 余地 的 ， 在 上 面 放任 何 东西 也 都 会 因为 积木 有 可 
能 发 生 移动 而 变 得 不 稳固 。 和 希望 更 稳固 怎么 办 ? 最 直接 的 想法 是 把 位 
移 位 一 丛 ， 让 这 些 积木 跑 到 更 稳固 的 状态 上 去 ,通常 跑 到 稳固 状态 上 
的 积木 也 不 容易 再 出 来 。 这 样 最 后 停止 时 管 黎 里 的 积木 堆 就 比 原来 的 
积木 堆 要 更 稳定 ， 更 抗 压 。 要 想 让 积木 堆 尽 可 能 稳定 ， 多 管 几 次 即 
可 ， 直 到 看 上 去 积木 堆 的 体积 不 再 变化 了 (图 15-16) ° 


图 15-16 积木 从 不 稳定 到 稳定 


从 算法 上 来 看 ， 还 是 迭代 多 次 ， 然 后 让 算法 收 伍 到 某 个 解 附 近 ， 
这 个 解 就 是 全 局 最 优 解 。 这 种 思路 我 们 在 遗传 算法 里 也 介绍 过 。 


15.5.2 W/K SRL 


1868 年 ， 奥 地 利 物 理学 家 路 德 维 希 . 玻 尔 效 曼 (Ludwig Edward 
Boltzmann) 在 研究 气体 热平衡 统计 力学 中 给 出 一 个 玻 尔 兹 曼 因子 : 


其 中 ，e 是 自然 常数 ，E 是 状态 的 能 量 ，ksp 是 玻 尔 效 曼 常 数 ，T 
是 当时 的 绝对 温度 (绝对 零度 是 零下 273%C) 。 波 和 尔 效 曼 因子 在 使 用 
时 通常 是 用 来 比较 同一 温度 之 下 ， 系 统 所 处 两 个 状态 概率 的 比值 。 


E, E, E,-E, 
F(state2) _ (e =T) (e 8°) Lek 


F(statel) - 

把 这 个 时 候 的 温度 T、 常 数 e 和 ks 代 进 去 ， 这 个 比值 和 这 两 个 能 量 

的 差 做 e 的 指数 的 寡 画 数值 成 正比 。 可 以 肯定 的 是 ， 在 T- 一 定时 ， 两 个 

能 量 的 差 越 大 ， 这 个 比值 就 越 大 ， 也 就 是 在 两 个 状态 下 的 概率 的 比率 
越 大 ， 状 态 为 state2 的 概率 越 大 。 


还 是 从 激活 而 数 OTe 来 看 ， 这 个 函数 能 很 好 地 把 多 维 
超 平面 和 二 项 分 布 结合 起 来 。 对 于 分 类 也 确实 只 有 两 种 结果 ， 要 么 属 
于 (输出 1) ， 要 么 不 属于 (输出 0) 


输出 1 时 ， 概 率 函 数 


l 
p(v)- — NM 
l+e 7 
输出 0 时 ， 概 率 函 数 
l y= 1 
z pv) TE -(wIysb) 
l+e 7 
所 以 两 个 状态 的 比值 
l 
~(wly+5) E ae 
po) _ 14e 7 — T 
1- p(v) fas l 
—(wiv+b) 
l+e 7 


也 就 古 说 要 训练 这 个 玻 尔 兹 曼 机 ， 


决定 的 是 w! 为 多 少 ， 


根据 画 数 /1) 
be 


相应 考虑 的 ， 不 同 的 是 ， 由 于 取 了 倒数 ， 


RER RE: 


让 它 具 备 分 类 的 能 力 ， 而 应 该 


以 及 T 为 多 少 才能 满足 尽量 少 地 误 判 。 


|] 
lee" 的 模型 ，t 前 面 的 系数 绝对 值 越 大 ， 曲 线 越 立 
系数 绝对 值 越 小 曲线 越 平 缓 ， 所 以 T 这 个 温度 的 选择 也 十 要 进行 


T 越 大 曲线 越 平缓 ， 越 小 曲 


vb 


pv) 7 
l- p(v) 


实际 的 训练 过 程 如 下 。 


(1) 先 设 置 一 组 wT、b 和 T， 这 个 初始 的 TMTo6 ，To 设置 得 大 一 
JHE o 


(2) 然后 每 一 个 v 都 能 计算 出 其 对 应 的 分 类 结果 的 概率 比率 情 
^ 如 果 是 1， 则 表示 这 个 v 补 判断 为 “属于 该 分 类 ”的 概率 和 “不 属于 该 
分 类 ”的 概率 一 样 大 ， 大 于 1 且 越 大 ， 则 说 明 v 被 判断 为 “属于 该 分 类 ”的 
概率 越 大 ; 反之， 小 于 1 且 越 接近 0， 则 说 明 v 被 判断 为 “不 属于 该 分 
类 ”的 概率 越 大 。 


- 


aia. A 
(3) 通过 调整 T， 以 C OT ED gr softer e eb FB 


退火 的 过 程 。 有 的 资料 上 写成 lg (ce) ， 性 质 差 不 多 。 


(4) 当 发 现 连续 迭代 一 两 次 后 T 的 变化 没有 引起 明显 的 误 判 率 的 
Wa, Wen DASE 


15.6 ” 卷 积 神经 网 络 


很 多 人 研究 者 喜欢 把 卷 积 神经 网 络 放 到 “深度 学 习 ” (Deep 
Learning) 的 艺 畴 来 介绍 。 这 里 将 卷 积 神经 网 络 放 在 神经 网 络 中 进行 


介绍 ， 后 面 专门 还 有 一 节 对 深度 学 习 进 行 讨论 。 


卷 积 神经 网 络 (Convolutional Neural Network, CNN) 是 一 种 前 
馈 神经 网 络 ， 它 的 人 工 神经 元 可 以 响应 一 部 分 覆盖 范围 内 的 周围 单 
元 ， 对 于 大 规模 的 模式 识别 都 是 有 着 非常 好 的 性 能 表现 的 ， 尤 其 是 对 
大 规模 图 形 图 像 处 理 效 率 极 高 ， 这 也 是 大 家 热衷 研究 这 类 网 络 的 重要 
原因 。 说 到 底 ， 卷 积 神经 网 络 还 是 一 个 分 类 器 ， 是 一 种 有 监督 机 器 学 
习 的 工具 。 


在 20 世 纪 60 年 代 ， 美 国 神经 生物 学 家 Hubel 和 Wiesel 在 研究 猫 脑 皮 
层 中 用 于 局 部 敏感 和 方向 选择 的 神经 元 时 发 现 其 独特 的 网 络 结构 可 以 
有 效 地 降低 反馈 神经 网 络 的 复杂 性 ， 继 而 提出 了 卷 积 神经 网 络 。 现 
在 ，CNN 已 经 成 为 众多 科学 领域 的 研究 热点 之 一 ， 特 别 是 在 模式 分 类 
领域 ， 由 于 该 网 络 避 免 了 对 图 像 的 复杂 前 期 预 处 理 ， 可 以 直接 输入 原 
始 图 像 ， 因 而 得 到 了 更 为 广泛 的 应 用 。 日 本 人 福 岛 邦彦 (Kunihiko 
Fukushima) 在 20 世 纪 90 年 代 提 出 的 新 识别 机 是 卷 积 神经 网 络 的 第 一 个 
实现 网 络 。 随 后 ， 更 多 的 科研 工作 者 对 该 网 络 进行 了 改进 。 


一 般 来 说 ，CNN 的 基本 结构 包括 两 层 。 


第 一 层 为 特征 提取 层 ， 每 个 神经 元 的 输入 与 前 一 层 的 局 部 接受 域 
相连 ， 并 提取 该 局 部 的 特征 。 一 旦 该 局 部 特征 被 提取 后 ， 它 与 其 他 特 
征 间 的 位 置 天 系 也 随 之 确定 下 来 。 


第 二 层 为 特征 映射 层 ， 网 络 的 每 个 计算 层 由 多 个 特征 映射 组 成 
每 个 特征 映射 是 一 个 平面 ， 平 面 上 所 有 神经 元 的 权 值 相等 。 特 征 映射 
结构 采用 影响 画 数 核 小 的 sigmoid 画 数 作为 卷 积 网 络 的 激活 醒 数 ， 使 得 
特征 映射 上 有 位 移 不 变性 。 


此 外 ， 由 于 一 个 映射 面 上 的 神经 元 共 至 权 值 ， 因 而 减少 了 网 络 目 
由 参数 的 个 数 。 卷 积 神经 网 络 中 的 每 一 个 卷 积 层 都 紧 跟 着 一 个 用 来 求 
局 部 平均 与 二 次 提取 的 计算 层 ， 这 种 特有 的 两 次 特征 提取 结构 减 小 了 
TUE HER o 


CNN 主 要 用 来 识别 位 移 、 缩 放 及 其 他 形式 扭曲 不 变性 的 二 维 图 
形 。 由 于 CNN 的 特征 检测 层 通过 训练 数据 进行 学 习 ， 所 以 在 使 用 CNN 
时 ， 避 免 了 显 式 的 特征 抽取 ， 而 隐 式 地 从 训练 数据 中 进行 学 习 ;， 再 者 
由 于 同一 特征 映射 面 上 的 神经 元 权 值 相同 ， 所 以 网 络 可 以 并 行 学 习 ， 
这 也 是 卷 积 网 络 相对 于 神经 元 彼此 相连 网 络 的 一 大 优势 。 卷 积 神经 网 
络 以 其 局 部 权 值 共享 的 特殊 结构 在 语音 识别 和 图 像 处 理 方面 有 着 独特 
的 优越 性 ， 其 布局 更 接近 于 实际 的 生物 神经 网 络 ， 权 值 共享 降低 了 网 


络 的 复杂 性 ， 特 别 是 多 维 输 入 向 量 的 图 像 可 以 直接 输入 网 络 这 一 特点 
避免 了 特征 提取 和 分 类 过 程 中 数据 重建 的 复杂 度 。 


为 了 了 解 卷 积 神 经 网 络 的 实质 ， 下 面 简 单 介绍 一 下 卷 积 。 


15.6.1 ÆR 


在 泛 函 分 析 中 ， 有 卷 积 、 旋 积 或 扫 积 (Convolution) 的 定义 一 一 
一 般 的 中 文 材 料 里 还 是 习惯 用 卷 积 这 个 名 词 。 它 是 通过 两 个 函数 f 和 g 生 
成 第 三 个 函数 的 一 种 数学 滤 子 ， 表 征 钞 数 { 与 g 经 过 翻转 和 平移 的 重 和 从 省 
分 的 面积 。 


在 通信 工程 领域 ， 卷 积 十 非 第 第 用 的 一 种 计算 方法 ， 通 肖 用 到 着 
积 也 是 和 健 里 叶 变 换 有 关系 。 大 家 在 知 乎 上 去 找到 的 话 可 以 找到 很 多 
对 卷 积 的 解释 ， 有 不 少 形象 的 类 比 。 


卷 积 的 数学 定义 如 下 : 
h(x) = f(x)* g(x) SOE- 


这 个 等 式 可 以 从 面积 的 角度 去 尝试 解释 一 下 。 


在 第 8 章 曾经 介绍 过 关于 逐 差 法 求 重力 加 速度 g 的 过 程 ， 其 中 有 位 
BOLO ， 整 个 积分 式 的 含义 就 是 位 移 s 是 一 个 随 着 t 变 化 的 画 
数 ， 而 整个 过 程 中 s 是 由 这 一 瞬间 的 速度 (tb 和 了 瞬间 的 时 间 长 度 dt 
(At) 相 乘 而 来 的 。 这 里 面 有 一 个 非常 重要 的 概念 ， 就 是 积分 表示 的 
是 面积 __ 夯 数 曲线 r (0 和 s=0 Ch) 围 成 的 面积 。 在 上 述 卷 积 式 
中 ， 就 是 h (x) 和 y=0 (x 轴 ) 围 成 的 面积 。 


那么 这 个 积分 式 中 的 f (0 g Oct) 是 什么 呢 ? 其 实 是 ，f (t) 先 不 
5 g C0 相当 于 g (0 函数 的 图 像 沿 着 y 轴 (t=0) 做 了 一 次 翻转 。g 
(x-t) 相当 于 g C0 的 整个 图 像 沿 着 t 轴 进行 了 平移 ， 向 右 平移 了 x 个 
单位 。 


做 了 这 个 变换 之 后 ， 可 以 想象 这 一 共 是 有 两 个 函数 ， 一 个 是 固定 
的 函数 ， 一 个 是 请 动 的 函数 ， 求 它们 相 乘 之 后 围 起 来 的 面积 ， 滑 动 的 
变量 就 是 zx。 如 图 15-17 所 示 ，f (0 就 是 一 个 三 角形 ， 在 第 二 象限 是 一 
条 过 (-1, 0) 和 “(0，1) 点 的 线段 ， 在 第 一 象限 是 一 条 过 (0, 1) 和 
(1, 0) 点 的 线段 。 画 数 g (0 是 一 个 正方 的 脉冲 波 ，t 在 [1，2] 上 有 害 
义 ， 在 这 上段 区 间 里 g (t) =t° EMG (xt) 是 左 侧 的 这 个 做 过 翻转 的 图 
形 ， 图 15-18 中 还 分 别 有 x=-2，x=-1，x=0，x=1，x=2 时 的 图 像 。 


可 以 观察 到 ， 在 这 个 不 定 积分 完成 后 ， 会 形成 两 个 函数 受 加 的 部 

， 其 中 x 是 一 个 变量 。 假 设 x 为 0， 或 者 当 x 不 存在 ， 那 么 就 是 f (UO 和 
g (-t) 这 两 个 函数 相 乘 后 和 y=0 (HH) 围 成 的 面积 。 当 x 出 现 后 ，x 征 
帮 着 g Co 图 像 左 右 平 移 的 ， 刚 刚 也 看 到 这 个 图 像 的 变化 过 程 了 ， 那 
么 会 变 成 什么 样 ? 简单 地 说 ， 这 个 函数 hn (x) 的 值 就 是 求 一 个 面积 和 x 
的 关系 ， 而 这 个 面积 就 是 函数 f (t) 和 g (x-t) 相 乘 后 的 曲线 和 y=0 (t 
轴 ) 围 成 的 面积 ， 其 中 自 变量 是 x。 在 随 着 x 变化 的 移动 过 程 中 ， 由 于 g 
(x-t) 移动 产生 的 hp (x) 的 对 应 变化 就 是 整个 卷 积 公式 的 意义 了 一 一 
一 个 移动 中 用 x 进行 取样 的 过 程 。 


S 


(a) AO 
图 15-17 f (t Mg (t) 


图 15-18 WSR AT 


对 于 工学 层面 的 应 用 来 说， 眷 积 本 喘 的 侣 义 以 及 推导 在 生产 生活 
中 通 币 没 有 机 会 接触 ， 读 者 在 脑海 里 形成 一 个 移动 过 程 中 做 乘积 的 印 
象 就 足够 了 。 


15.6.2 图像 识 别 


绍 了 卷 积 的 数学 意义 ， 下 面 介 绍 卷 积 神经 网 络 的 应 用 过 程 。 


前 面 介 绍 了 BP 神 经 网 络 和 玻 尔 效 曼 机 ， 其 中 BP 神 经 网 络 通 滑 是 一 
个 多 层 的 神经 网 络 系统 。 在 这 样 一 个 神经 网 络 中 ， 每 层 的 神经 节点 都 
是 共享 前 一 层 所 有 的 输入 项 的 ， 也 就 是 每 层 各 个 厄 点 的 g (v) =wv+b 的 
v 都 是 一 样 的 。 训 练 也 是 一 次 一 次 进行 迭代 来 调整 各 个 w 的 值 。 


这 种 网 络 有 一 个 问题 ， 就 是 一 旦 输入 的 v 维 度 比 较 大 ， 训 练 的 时 间 
都 是 几何 级 数 增长 的 ， 只 有 三 五 个 输入 时 训练 很 快 ， 输 入 多 达 三 五 百 
个 时 基本 就 没 办 法 在 能 够 忍受 的 时 间 内 训练 出 来 了 ， 而 在 图 像 识 别 
上 时， 一 个 图 像 如 果 是 2048x1536， 也 就 是 3145728 个 像素 时 ， 已 经 完全 
没 办 法 胜任 了 ， 这 还 不 是 高 清 图 片 ， 现 在 的 数码 相机 动力 就 1600 万 像 
素 以 上 ， 这 就 更 没 可 能 训练 了 。 

人 


图 15-19 ” 青 苹果 的 图 片 


可 是 如 采 真 的 想 这 么 做 ， 怎 么 办 ? 下 面 将 讨论 如 果 想 识别 一 个 
2048x1536 像 系 的 图 片 将 面临 什么 问题 ， 以 及 怎么 用 卷 积 神经 网 络 解 
x e 


我 们 以 青 苹果 的 图 片 为 例 〈 如 图 15-19 所 示 ) ， 如 果 想 要 用 神经 网 
络 对 这 个 2048x1536 像 素 的 图 片 进行 建 模 处 理 ， 那 起 码 要 用 一 个 
3145728 维 度 的 向 量 来 进行 建 模 。 好 在 受到 猫 脑 皮层 研究 中 的 一 些 启 
发 ， 有 了 局 部 感知 学 习 的 一 些 尝试 。 


1. 设 计 卷 积 层 


卷 积 神经 网 络 有 两 种 很 特殊 的 功能 与 前 面 接触 的 神经 网 络 不 同 ， 
可 以 降低 参数 数目 。 


第 一 种 功能 : 局 部 感知 。 


一 般 认 为 人 对 外 界 的 认 知 是 从 局 部 到 全 局 的 ， 而 图 像 的 空间 联系 
也 是 局 部 的 像素 联系 较为 紧密 ， 而 距离 较 远 的 像素 相关 性 则 较 弱 。 因 
而 ， 每 个 神经 元 其 实 没 有 必要 对 全 局 图 像 进行 感知 ， 只 需要 对 局 部 进 
行 感知 ， 然 后 在 更 高 层 将 局 部 的 信息 综合 起 来 束 得 到 了 全 局 的 信息 。 
网 络 部 分 连通 的 思想 ， 也 是 受 启发 于 生物 学 里 面 的 视觉 系统 结构 。 视 


觉 皮 层 的 神经 元 就 是 局 部 接受 信息 的 ， 即 这 些 神 经 元 只 响应 某 些 特定 


区 域 的 刺激 。 如 图 15-20 所 示 ， 图 15-20 (a) 为 全 连接 ， 图 15-20 (b) 
为 局 部 连接 o 


为 了 不 让 图 上 的 元 素 太 密 而 让 大 家 产生 不 快 的 感觉 ， 在 全 连接 情 
况 下 只 是 示意 性 地 画 出 了 两 个 神经 元 ， 每 一 个 神经 元 都 连接 到 前 端 
2048x1536 个 像素 输入 点 上 ， 在 纵横 两 个 维度 上 都 做 连接 ;图 15-20 
(b) 画 出 的 是 整个 图 形 的 一 部 分 。 


在 这 个 2048x1536 像 素 的 图 片 处 理 过 程 中 ， 本 来 需要 建立 一 个 
3145728 个 输入 项 的 多 节点 网 络 〈 每 个 节点 都 是 3145728 个 输入 项 ) ， 
也 束 是 2048x1536 个 神经 元 ， 每 个 神经 元 的 输入 又 有 参数 2048x1536 


个 。 


但 是 在 做 过 局 部 感知 处 理 后 ， 就 可 以 把 广 点 的 数量 减少 ， 同 时 也 
可 以 把 节点 的 参数 数量 减少 。 由 于 2048 是 21 ，1536 是 3x29 ， 因 此 设计 
一 个 节点 ， 这 个 节点 可 以 接收 16x12， 也 就 是 192 个 参数 。 为 了 看 得 清 
楚 ， 将 局 部 放大 ， 临 近 的 16x12 个 像素 点 连接 到 一 个 神经 元 ， 每 个 神经 
元 的 接收 范围 都 和 左右 两 侧 的 神经 元 各 有 1 列 是 不 同 的 ， 其 他 15 列 是 相 
同 的 ， 而 和 上 下 两 侧 的 神经 元 各 有 1 行 是 不 同 的 ， 其 余 11 行 是 相同 的 。 
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(a) 全 连接 (b) 局 部 连接 


图 15-20 ”感知 方式 


NW 


在 这 种 情况 下 ，16x12 个 像素 单位 的 图 片 需要 1x1=1 个 16x12 的 神经 
元 来 进行 连接 ; 17x13 个 像素 单位 的 图 片 需要 2x2=4 个 16x12 的 神经 元 来 
进行 连 授 ;18x14 个 像素 单位 的 图 片 需要 3x3=9 个 16x12 的 神经 元 来 进行 
连接 ; 以 此 类 推 ，2048x1536 个 像素 单位 需要 2033x1525=3100325 个 
16x12 的 神经 元 来 进行 连接 。 


仍然 使 用 3100325， 也 就 是 2033x1525 个 神经 节点 。 对 比 一 下 ， 这 
种 方法 的 改进 在 权 值 训练 上 有 怎样 的 提高 。 


按照 BP 神经 网 络 ，3145728 个 输入 项 束 需 要 3145728 个 节点 ， 每 个 
节点 需要 3145728 个 权 值 ， 也 就 是 需要 
3145728x3145728=9895604649984， 也 就 是 9 万 8 于 多 亿 个 输入 项 输入 到 
第 一 层 〈 也 叫 隐 含 层 ) Ee 


按照 刚刚 的 方案 进行 改进 ， 有 2033x1525 个 神经 节点 ， 每 个 节点 能 
够 处 理 16x12 个 参数 ， 而 现在 实际 上 用 了 2033x1525x16x12， 也 就 是 
595262400 个 输入 项 就 解决 了 ， 对 比 原来 的 9 万 8 千 多 亿 个 数量 减少 为 
0.006%， 理 论 上 训练 速度 提高 至 少 5 个 数量 级 。 


卷 积 层 指 的 就 是 刚刚 设计 的 这 一 层 ， 而 这 16x12 个 参数 被 一 个 神经 
太 扩 进行 处 理 和 特征 值 提取 的 过 程 操 作 束 叫做 郑 积 操作 。 一 会 儿 后 面 
我 们 会 具体 讲解 怎么 来 做 这 个 过 程 。 


图 15-21 某 种 建 模 形 式 


在 有 些 资料 里 还 会 看 到 如 图 15-21 所 示 的 建 模 形 式 ， 也 就 是 说 一 个 
神经 元 不 仅 对 图 形 的 像素 是 否 有 着 色 (二 值 化 后 的 黑色 ) 敏感 ， 还 对 
每 个 图 形 的 深度 (height) 敏感 。 图 形 深度 是 RGB 闫 色 的 值 的 深度 量 
化 ， 即 对 在 计算 机 颜色 处 理 中 负 用 的 红色 Red、 绿 色 Green、 蓝 色 Blue 
进行 参数 化 处 理 。 如 果 对 颜色 敏感 ， 在 刚刚 的 设计 中 ， 就 需要 对 每 个 


神经 元 建 模 ， 使 其 成 为 可 以 接受 16x12x3 个 参数 的 神经 元 。 如 果 不 敏 
感 ， 那 就 直接 把 图 像 二 值 化 后 再 做 训练 。 


上 述 例 子 里 ， 即 便 不 需要 对 颜色 敏感 ， 还 是 需要 用 训练 来 调整 
595262400 个 权 值 ， 而 这 个 数量 虽然 比 前 面 9 万 多 亿 的 设计 好 很 多 但 是 
仍然 很 多 。 那 么 这 时 就 需要 第 二 个 强大 的 功能 派 上 用 场 ， 那 就 是 参数 
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在 刚刚 设计 的 卷 积 层 中 ， 每 个 神经 元 都 对 应 16x12 个 参数 ， 一 共 
2033x1525， 即 3100325 个 神经 元 ， 如 果 这 3100325 个 神经 元 的 192 个 参 
数 都 是 相等 的 ， 那 么 实际 上 要 训练 的 参数 数目 就 变 为 192 了 。 


有 关 权 值 共享 的 问题 只 是 一 个 减少 参数 训练 复杂 度 的 技巧 ， 或 者 
只 旦 方案 之 一 ， 而 非 必 要 方案 ， 和 是 强行 设置 的 一 种 权 值 方式 。 可 以 把 
这 16x12 个 参数 看 成 古 提取 特征 的 方式 ， 该 方式 与 图 像 捕 捉 的 位 置 无 
关 。 大 致 原理 : 视觉 神经 在 捕捉 外 界 进 来 的 光 信 和 号 时 是 不 加 分 别 的 ， 
所 有 的 神经 对 于 映射 到 它 上 的 信号 (16x12 个 输入 ) 是 一 视 同 仁 地 看 待 
的 〈 权 值 一 样 ) ， 不 同 的 是 这 个 阵列 上 的 不 同 细胞 映射 的 信号 对 象 不 
一 样 ， 只 映射 它 最 邻近 的 对 象 。 


更 直观 地 ， 当 从 一 个 大 尺寸 图 像 中 随机 移 取 一 小 块 ， 如 16x12 作 为 
样本 ， 并 且 从 这 个 小 块 样本 中 学 习 到 了 一 些 特 征 ， 这 时 可 以 把 从 这 个 


16x12 样 本 中 学 习 到 的 特征 作为 探测 器 ， 应 用 到 这 个 图 像 的 任意 地 方 
中 。 特 别 地 ， 可 以 用 从 16x12 样 本 中 所 学 习 到 的 特征 与 原本 的 大 尺寸 图 
像 作 卷 积 ， 从 而 从 这 个 大 尺寸 图 像 上 的 任 一 位 置 获 得 一 个 不 同 特征 的 
激活 值 。 


图 15-22 一 个 3x3 的 着 积 核 在 5x5 的 图 像 上 做 卷 积 


为 了 理解 方便 ， 在 做 示例 时 进行 简化 。 如 图 15-22 所 示 为 一 个 3x3 
的 卷 积 核 在 5x5 的 图 像 上 做 卷 积 的 过 程 。 每 个 卷 积 都 是 一 种 特征 提取 方 
XS. RR MIF. KARAT (激活 值 越 大 越 符合 条 件 ) 的 
部 分 筛选 出 来 ， 即 用 右 侧 的 3x3 小 方块 从 上 到 下 从 左 到 右 地 套 左 侧 的 
5x5 的 大 方块 。 


分 别 得 到 9 个 矩阵， 如 图 15-23 所 示 。 


图 15-23 ”得 到 9 个 矩阵 
假设 设计 的 卷 积 核 也 是 一 个 和 矩阵， 如 图 15-24 所 示 。 


这 个 卷 积 核 输出 的 结果 定义 为 用 着 积 结 来 短 阵 和 卷 积 核 做 内 积 的 
Fx: 
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数 方 格 的 问题 ， 也 就 是 这 9 幅 局 部 图 对 应 的 输出 就 变 成 了 如 图 15-25 所 示 
的 和 矩阵。 


图 15-24 ” 卷 积 核 


图 15-25” 对 应 的 输出 


到 这 里 卷 积 层 的 工作 就 已 经 完成 了 ， 束 古 通 过 这 种 从 左 到 右 从 上 
到 下 的 平移 来 看 平移 过 程 中 卷 积 核 的 范围 内 应 该 捉 取 哪些 特征 值 。 这 
个 过 程 似 曾 相识 ， 在 BP 神 经 网 络 中 也 同样 接触 过 ， 只 是 当时 用 的 网 络 
征 全 连接 方式 。 


建议 卷 积 层 的 神经 元 节点 的 接收 输入 有 大 部 分 重 释 ， 这 里 重 普 的 
部 分 达到 了 "三 ， 即 一 个 神经 卷 积 的 16 列 感知 对 象 中 有 15 列 被 其 旁边 
临近 的 神经 元 所 感知 ，12 行 感知 对 象 中 有 11 行 被 其 旁边 临近 的 神经 元 
所 感知 ， 重 县 比例 大 约 为 86%， 也 可 以 尝试 其 他 重大 比例 ， 这 不 是 一 个 
一 成 不 变 的 值 。 


2. 设 计 采 样 层 


采样 层 也 叫 池 层 (Pooling) ， 它 的 目的 是 将 前 面 卷 积 层 输出 的 特 
征 提取 值 进行 量化 。 


这 种 层 的 作用 是 继续 对 临近 的 输入 后 进行 特征 提取 ， 算 法 设计 也 
不 固定 ， 可 以 是 求 平 均值 ， 也 可 以 是 求 最 大 值 等 ， 忌 之 整 是 把 在 前 面 


卷 积 层 输 出 的 矩阵 继续 进行 特征 化 。 


图 15-26 采样 层 


以 上 述 卷 积 层 作 为 输入 ， 可 以 尝试 做 一 个 2x2 单 位 的 采样 层 ， 即 用 
右 侧 的 2x2 小 方块 从 上 到 下 从 左 到 右 地 套 左 侧 的 3x3 的 大 方块 ， 如 图 15- 
26 所 示 。 


图 15-27 ZERRE 


这 样 束 可 以 得 到 如 图 15-27 所 示 的 矩阵 。 


每 一 个 点 征求 4 个 输入 的 平均 值 ， 这 样 根 据 采样 层 的 输入 视 岁 求 
平均 则 分 别 得 到 输出 : 


(3+3+4+4) +4=3.5 


(3+3+4+3) +4=3.25 


(4+4+5+4) +4=4.25 


(4+3+4+3) +4=3.5 
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片 。16x12 的 卷 积 核 和 3x3 的 卷 积 核 原 理 完全 相同 。 


在 例子 中 ， 采 样 层 的 神经 元 节点 的 接收 输入 有 部 分 重 压 ， 这 里 用 
2x2 的 采样 节点 去 做 采样 重合 的 部 分 达到 了 1/2， 也 可 以 笑 试 不 重 谷 或 者 
以 其 他 比例 进行 重 侄 。 


3. 完 整 网 络 设计 


在 了 解 了 卷 积 层 和 采样 层 的 工作 方式 后 ， 要 对 完整 的 苹果 图 片 进 
行 识别 ， 卷 积 网 络 可 以 设计 为 如 图 15-28 所 示 的 形式 。 


图 15-28 ”神经 网 络 


卷 积 层 C1: 可 以 设计 2033x1525， 即 3100325 个 神经 元 节点 。 如 同 
在 前 面 讨 论 过 的 连接 方法 。 


采样 层 S1: 可 以 采用 不 重合 的 方式 进行 采样 ， 设 计 使 用 输入 参数 
为 16x12 的 神经 节点 ， 那 么 需要 128x128， 即 16384 个 节点 。 


EFEC: 这 里 可 以 再 设计 一 层 卷 积 层 进行 卷 积 处 理 ， 设 计 使 用 
输入 参数 为 16x16 的 神经 节点 ， 需 要 113x113， 即 12769 个 节点 。 


FPES 可 以 继续 采用 不 重 权 的 方式 进行 采样 处 理 ， 可 以 尝试 


采用 8x8 的 输入 点 数量 ， 那 么 需要 15x15 个 神经 元 节点 。 


输出 层 0: 最 后 的 输出 层 采 用 全 连接 方式 。 由 于 前 段 的 采样 层 S2 
输出 为 15x15， 所 以 这 一 层 应 该 采用 15x15 个 节点 ， 每 个 节点 有 15x15， 
即 255 个 参数 。 这 255 个 参数 可 以 考虑 用 高 位 128 位 都 标记 成 1， 低 位 127 
位 都 标记 成 0 来 表示 苹果 图 片 的 分 类 。 


4. 训 练 


可 以 准备 1000 张 甚至 更 多 的 羊 东 网 片 ， 都 进行 同 量化 。 然 后 像 在 
前 面 识别 图 片 那 样 来 做 训练 即 可 。 
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这 个 方法 在 PC 上 处 理 2048x1536 像 素 的 图 片 是 有 学 术 意 义 的， 但 是 
以 目前 个 人 PC 的 处 理 水 乎 要 想 商 用 是 很 困难 的 。 何 这 这 个 例子 中 做 的 
还 仅仅 是 二 值 化 后 的 苹果 图 形 的 识别 而 不 是 RGB 深度 3 通道 下 的 识别 ， 
可 想 而 知 这 个 训练 过 程 更 为 漫长 。 


一 般 来 说 ， 越 复杂 的 图 形 图 像 训练 需要 的 样本 越 多 。2012 年 6 月 
Google 最 神秘 的 部 门 Google X 通 过 1.6 万 片 处 理 右 ， 模 拟 10 亿 多 条 连 
接 ， 构 建 了 一 个 庞大 的 系统 ， 用 于 模拟 人 类 的 大 脑 神经 网 络 。 借 助 “ 谷 
歌 大 脑 "， 无 须 接受 人 类 的 任何 培训 和 指令 ， 就 可 以 利用 内 在 算法 从 海 
量 数据 中 目 动 提取 信息 ， 学 会 如 何 识别 猫 。 这 是 人 类 有 史 以 来 在 机 器 
学 习 (也 有 人 说 这 叫 深度 学 习 ) 中 所 做 的 最 有 益 的 尝试 之 一 。 面 对 从 
YouTube 视 频 中 找到 的 1000 万 张 数 子 照片 ， 这 个 “谷歌 大 脑 ” 能 从 中 目 主 
学 习 猫 的 长 相 。 然 后 束 可 以 目 己 对 其 他 给 它 的 图 片 进行 判 凯 一 一 “这 张 
征 猫 。 这 张 不 是 猫 。” 这 种 目 学 成 才 的 能 力 别 说 在 当时 ， 束 是 在 现在 也 
BATRA ° 
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15.7 REZY 


深度 学 习 (Deep Learning) ， 我 们 在 这 里 不 打算 讲 太 多 ， 只 是 提 
一 下 我 对 这 个 名 词 的 理解 吧 。 


深度 学 习 不 是 一 种 算法 ， 而 是 一 种 狐 的 境界 ， 说 它 是 新 的 领域 也 
不 合适 ， 因 为 确实 也 不 是 新 领 域 ， 研 究 的 问题 还 是 老 问 题 。 


现在 研究 深度 学 习 的 人 人 很多， 深度 学 习 相关 的 框架 体系 也 有 很 
多 ， 如 深度 神经 网 络 (Deep Neuron Networks, DNN) 、 卷 积 神经 网 
络 、 深 度 信 念 网 络 (Deep Belief Networks, DBN) 和 递归 神经 网 络 
(Recurrent Neural Network, RNN) 等 。 说 到 深度 学 习 ， 就 得 问 问 它 
的 反面 “ 浅 度 学 习 ?” 说 的 是 什么 。 


相对 现在 提出 的 深度 学 习 的 概念 不 同 ， 过 去 人 研究 的 “ 浅 度 学 习 ” 更 
多 是 针对 结构 化 数据 的 学 习 和 研究， 还 有 半 结 构 化 数据 的 学 习 和 人 研 
究 ， 模 型 简单 、 结 构 固 定 、 量 化 容易 ， 规 模 小 。 这 些 用 过 去 的 统计 、 
概率 、 一 般 机 器 学 习 基本 方法 都 能 得 到 比较 好 的 解决 方案。 


但 古 随 着 计算 机 计算 能 力 的 发 展 ， 网 络 规模 的 逐渐 扩大 ， 存 储 能 
力 的 不 断 提 高 ， 过 去 时 间 复 洒 度 非常 高 的 不 可 行 的 方案 ， 慢 慢 也 束 变 
得 可 行 了 ， 原 来 认为 解决 问题 不 能 成 行 的 思路 ， 慢 慢 也 束 变 得 能 够 成 
行 了 。 早 在 20 世 纪 七 八 十 年 代 各 国 的 高 级 实验 室 束 都 在 研究 能 不 能 做 
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习 ， 还 是 做 手写 识别 ， 这 些 答 试 都 是 做 过 的 。 关 键 不 是 当时 的 数学 家 
建 模 能 力 有 问题 ， 而 是 硬件 不 够 强大 。 


这 些 深 度 学 习 的 共同 点 基本 上 束 是 网 络 输入 层 节 点 多 ， 网 络 层次 
深 ， 文 持 的 分 类 种 类 多 而 复 洒 。 大 部 分 还 是 围绕 着 神经 网 络 或 者 基于 
神经 网 络 的 思路 来 发 展 的 ， 而 且 在 前 儿 市 都 有 过 相应 的 接触 。 有 既然 趋 
势 是 文 持 分 类 种 类 多 而 复 洒 的 学 习 方 向 ， 那 么 以 有 限 同 无 限 的 方向 前 
进 ， 以 离散 向 连续 的 方向 前 进 的 发 展 束 随 着 客观 条 件 的 成 熟 变 得 越 来 
越 现 实 。 所 以 也 看 到 在 边界 划分 比较 清晰 的 声音 识别 、 图 像 识 别 、 棋 
有 牌 博 诊 等 领域 深度 学 习 的 效 采 会 格外 好 ， 甚 至 有 了 时候 让 人 了 叹 为 观 上 ， 
觉得 真正 的 人 工 知 能 可 能 离 人 们 越 来 越 近 。 


忠 在 成 书 前 不 久 发 生 了 几 件 在 深度 学 习 方 面 比较 谋 撼 的 事情 。 


事件 一 :一 杆 进 洞 的 高 尔 夫 机 器 人 。 


TNW 中 文 站 2016 年 2 月 11 日 报道 ， 一 人 台 名 为 LDRIC 的 高 尔 夫 机 器 
人 人 完成 了 一 杆 进 洞 。 而 1997 年 ， 传 奇 高 尔 夫 选 手 “ 老 虎 ” 伍 效 也 曾 在 这 
里 完成 同样 的 一 击 。 据 称 LDRIC 是 “发 射 定向 机 器 人 智能 电路 ”的 英文 
缩写 ， 同 时 也 是 对 伍兹 的 名 字 “ 埃 尔 德 里 元 (Eldrick) ”的 致敬 。 


事情 二 : 围棋 AI 的 胜利 。 


英国 《自然 》 厅 志 2016 年 1 月 28 日 封面 文 草 称 ， 美 国 谷歌 公司 旗下 
的 人 工 智 能 软件 “阿尔 法 围棋 ”(AlphaGo) 打败 了 欧洲 围棋 冠军 攀 应 
CREME LER) 。 而 在 不 久 的 将 来 ，AlphaGo 将 在 韩国 首尔 与 韩国 围棋 
选手 李 世 石 九段 一 决口 下 ， 李 世 石 是 近 10 年 来 获得 世界 第 一 头衔 最 多 
的 棋 手 ， 谷 歌 为 此 提供 了 100 万 美元 作为 奖金 。 


在 笔者 截稿 前 也 就 是 北京 时 间 2016 年 3 月 15 日 下 午 17 时 10 分 左右 ， 
李 世 石 九段 若 斗 5 盘 ， 最 终 以 1 比 4 负 于 谷歌 的 人 工 智能 机 器 人 
AlphaGo。 这 不 仅 令 赛 前 断言 李 世 石 将 以 5 比 0 大 胜 人 工 智能 的 人 们 大 
跌眼镜 ， 而 且 也 大 大 提 振 了 人 们 对 于 人 工 智 能 发 展 的 信心 。 


这 两 个 事件 可 以 说 是 让 人 非 第 兴奋 的 ， 同 时 也 让 很 多 人 感到 紧 
张 ， 现 在 人 工 智 能 的 发 展 让 人 们 对 机 器 人 越 来 越 敬 是。 


确实 ， 这 些 原 来 在 人 工 智能 领域 让 科学 家 感到 力不从心 的 问题 现 
在 越 来 越 让 人 感觉 轻松 。 除 了 数学 科学 的 发 展 以 外 ， 硬 件 本 号 的 制造 
能 力 与 水 平 的 提高 ， 制 造成 本 的 下 降 ， 也 让 越 来 越 多 的 复杂 问题 变 得 
人 简单。 然而 ， 这 些 问 题 如 采 仔 细 观 察 可 以 发 现 ， 仍 然 是 一 些 边界 划 定 
明确 的 问题 ， 不 管 是 打 高 尔 夫 球 的 机 右 人 ， 还 是 下 围棋 的 机 融和 人 “。 它 
们 处 理 的 问题 对 比 人 所 处 理 的 问题 来 说 ， 依 旧 非 常 单纯， 模型 维度 单 
纯 ， 游 戏 规则 也 单纯 ， 和 过 去 处 理 的 问题 来 对 比 只 是 数据 量 比较 大 而 
已 ， 没 有 太 多 新 鲜 的 东西 。 在 人 们 明确 告诉 计算 机 应 该 怎么 去 计算 ， 
什么 步 台 ， 什 么 规则 ， 而 遗留 的 问题 仅仅 是 计算 量 的 情况 下 ， 计 算 机 


76 & n] BLA ABT RTT URE TI Eh, Fea BEIGE ASR ZK 
P o (BER FIREARM ERNE FEF EDA EE ATT ROUES, 
NAW EARN A PORT EHD, WHALER AINE HAF a aA 
FWRW, MAAR AR IAA FD Val HRA AT he ist T. 


应 该 说 ， 现 在 的 深度 学 习 水 平和 真正 的 理想 的 人 工 智 能 相差 还 是 
AGSUAR— —hR E EH ACRE, (ewe ` HRM BAA 
HJ » BIE BABI RAE BENE fip AACE, RT RAT ROLES 
计算 单元 在 数量 级 上 与 人 的 大 脑 基本 相当 ， 甚 至 要 超过 大 脑 几 个 数量 
级 。 所 以 担心 机 侨 人 造反 的 事情 ， 等 到 这 个 前 提 实 现 再 开始 也 不 算 
晚 。 
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在 学 习 了 回归 、 朴 素 贝 叶 斯 、 决 策 树 、 文 持 问 量 机 ， 以 及 本 章 讨 
论 的 人 工 神 经 网 络 以 后 ， 可 以 发 现 ， 这 些 算法 的 思路 都 有 一 个 共同 
点 ， 说 到 瓜 都 是 研究 多 维 向 量 空间 分 类 的 问题 ， 都 钙 根 据 众多 的 v 
(a, b, c, d, ...) 这 样 的 训练 样本 到 某 一 个 或 几 个 分 类 映射 的 关 
系 ， 判 断 新 的 给 定 样 本 的 分 类 归属 问题 。 


每 种 算法 都 有 目 己 优势 ， 也 都 有 目 己 的 局 限 性 。 这 束 好 比 一 个 很 
大 的 工具 箱 ， 里 面 有 电 锯 、 钢 锯 、 线 锯 等 各 种 锯 子 ， 它 们 都 是 锯 子 ， 
都 是 为 了 最 终 把 一 段 原 木 变 成 一 件 精 美的 家 具 ， 但 是 每 种 工具 都 有 目 
己 擅 长 的 场合 ， 还 有 一 些 目 己 不 擅长 的 场合 。 人 们 要 做 的 事情 束 是 掌 
握 每 种 工具 的 优 缺 点 ， 所 谓 “ 扩 有 所 短 寸 有 所 长 ”， 在 不 同 的 场合 选用 
不 同 的 工具 ， 并 注意 同时 规避 不 同 工 具 的 问题 ， 这 样 束 能 达到 事 半 功 
倍 的 效果 。 


第 16 草 ”大 数据 框 染 简介 
16.1 ”车 名 的 大 数据 框架 


框架 (Frame) 是 一 个 在 计算 机 领域 常用 的 词汇 。 


熟悉 PHP、Java 或 者 Python 的 读者 对 这 个 词 肯定 非常 熟悉 ， 


Laravel、Spring、Django 等 都 是 著名 的 语言 开发 框架 。 


每 一 个 框架 中 都 封装 了 大 量 的 工具 类 ， 它 的 最 大 作用 就 是 帮助 使 
用 者 节省 创建 工程 的 时 间 ， 把 大 家 共通 性 的 需求 和 问题 做 以 实现 。 这 
样 创建 工程 时 ， 程 序 员 束 只 需要 进行 类 似 搭 积木 式 的 工作 束 能 够 把 需 
求 完成 。 这 殊 是 框架 的 作用 。 


大 数据 框架 与 此 类 同 ， 束 是 用 来 简化 数据 科学 家 和 数据 开发 工程 
师 编程 难度 的 一 种 工具 。 


按照 最 早 最 朴素 的 方式 理解 大 数据 的 含义 ， 大 数据 解决 的 就 古 单 
机 无 法 处 理 的 数据 。 无 论 存储 数据 还 是 计算 数据 都 变 得 困难 无 比 ， 大 
数据 框架 的 出 现 惑 是 为 了 解决 这 个 问题 ， 让 使 用 者 可 以 像 使 用 本 地 主 
机 一 样 使 用 多 个 计算 机 的 处 理 右 ， 像 使 用 一 个 本 地 磁盘 一 样 使 用 一 个 
大 规模 的 存储 集群 。 这 样 可 以 让 科学 家 和 工程 师 把 精力 集中 在 目 己 的 


业务 上 ， 在 需要 并 行 计算 时 调用 大 数据 框架 的 应 用 程序 接口 
(API) ， 这 就 是 大 数据 框架 的 作用 。 


生活 中 也 有 很 多 框架 的 例子 ， 如 去 银行 办 理 业 务 ， 需 要 填写 不 同 
的 表格 ， 这 些 表 格 束 吓 框架 化 的 典型 例子 ， 如 发 送 通知 邮件 ， 会 有 通 
知 邮 件 的 通用 格式 ， 只 需要 填写 时 间 、 地 点 、 人物、 事件 .…… 这 些 杠 
架 的 共通 特点 束 是 ， 只 需要 关注 多 态 化 的 事务 ， 把 这 些 个 性 化 的 信息 
当做 参数 ， 共 通 的 部 分 已 经 做 成 了 框架 。 


大 数据 也 包含 很 多 种 类 的 框架 ， 一 般 分 成 两 类 ， 即 大 数据 计算 框 
架 和 大 数据 存储 框架 。 


大 数据 计算 框架 又 可 以 按照 执行 方式 分 成 两 类 ， 一 类 是 执行 一 次 
忠 结 束 的 、 对 计算 时 间 要 求 不 高 的 离线 计算 框架 ， 男 一 种 是 对 处 理 时 
间 有 产 格 要 求 的 实时 计算 框 染 。 


离线 计算 多 用 于 模型 的 训练 和 数据 的 预 处 理 ， 最 经 典 的 就 是 
Hadoop 的 MapReduce 方 式 了 ; 而 实时 计算 框架 是 要 求 立 即 返回 计算 结 
果 的 ， 快 速 响应 请 求 ， 如 Storm、Spark Streaming 等 框架 ， 多 用 于 简单 
的 累加 计数 和 基于 训练 好 的 模型 进行 分 类 等 操作 。 


无 论 是 离线 计算 还 是 实时 计算 ， 都 需要 持久 地 保存 大 量 的 清洗 过 
的 数据 和 计算 结果 ， 这 束 需 要 大 数据 存储 框 染 来 解决 了 。 


经 典 的 Hadoop HDFS 就 具备 了 动态 扩容 以 及 元 余 化 存储 (存储 多 
份 数据 ) 的 能 力 。 这 样 既 能 保证 数据 源 增 大 时 用 户 仍然 可 以 像 操 作 本 
地 磁盘 一 样 操作 HDFS， 又 可 以 保证 计算 结果 的 安全 性 ， 它 是 在 大 数 
据 存 储 中 最 主流 的 解决 办 法 之 一 。 


除了 计算 和 存储 ， 在 完整 的 处 理 过程 中 ， 会 加 入 一 些 NoSQL 人 存储 
和 一 些小 工具 来 提升 用 户 的 使 用 体 莉 ， 毕 竟 世 界 并 不 是 全 部 由 结构 化 
数据 组 成 的 。 在 大 数据 计算 中 要 缓存 一 些 中间 结 果 或 者 进行 快速 的 批 
量 写 入 操作 ， 那 么 我 们 会 在 计算 和 存储 之 间 加 入 NoSQL 存 储 引擎 来 存 
储 需 要 的 结果 。 再 配合 一 些 对 传统 SQL 优化 的 工具 ， 使 SQL 适用 于 体 
积 更 大 的 数据 ， 束 完成 了 大 数据 框 染 的 大 部 分 流程 了 。 下 面具 体 介绍 
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16.2 ”Hadoop 框 架 


将 Hadoop 称 作 框 染 其 实 并 不 准确 ， 更 多 人 豆 欢 称 Hadoop 为 生态 
财 ， 因 为 它 除 了 有 计算 和 存储 功能 外 还 提供 了 相当 多 的 组 件 ， 来 完成 
大 数据 方方面面 的 工作 。Hadoop 生 态 圈 的 组 件 非常 多 ， 图 16-1 所 示 为 
Hadoop 1.0 环 境 中 的 生态 图 组 成 ， 扑 虫 工 具 、 集 群 化 存储 、 工 作 流 、 数 
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图 16-1 Hadoop 2 


现在 在 生产 环境 中 ， 通 常 使 用 Hadoop 2.0 环 境 。 通 常 说 的 Hadoop 只 
是 其 中 最 核心 的 框架 ， 主 要 分 为 以 下 4 个 部 分 。 


(1) Hadoop Common: 这 是 Hadoop 的 核心 功能 ， 是 对 其 他 的 
Hadoop 模 块 做 支撑 的 ， 里 面包 仿 了 大 量 的 对 故 层 文件 、 网 络 的 访问 ， 
对 数据 类 型 的 支持 ， 以 及 对 象 的 序列 化 、 反 序列 化 的 操作 支持 等 。 


(2) Hadoop Distributed File System (HDFS™ ) : Hadoop 分 布 式 
文件 系统 ， 也 了 束 是 上 面 提 到 的 HDFS， 它 用 于 存储 大 量 的 数据 。 


(3) Hadoop YARN: 一 个 任务 调度 和 资源 管理 的 框架 。 
(4) Hadoop MapReduce: 基于 YARN 的 并 行 大 数据 处 理 组 件 。 


请 注意 Hadoop 1.0 和 Hadoop 2.0 的 区 别 ， 如 图 16-2 所 示 。Hadoop 1.0 
环境 的 MapReduce 是 直接 运行 的 ，Hadoop 2.0 环 境 的 MapReduce 依 赖 于 
YARN 框 架 ， 在 YARN 框 架 启 动 后 ，MapReduce 在 需要 运行 的 时 候 把 任 
务 提交 给 YARN 框 架 ， 让 YARN 框 架 来 分 配 货 源 择 机 运行 ， 这 是 两 者 最 
大 的 区 别 。 


Hadoop 1.0 Hadoop 2.0 


MapReduce 
(cluster resource management 


& data processing) 


(a) Hadoop 1.0 (b) Hadoop 2.0 


AJ16-2 Hadoop 1.0 和 Hadoop 2.0 


一 般 把 Hadoop Common ` HDFS ` YARN ` MapReduce X lu 247; 
称 为 Hadoop 框 架 ， 而 在 Hadoop 生 态 环境 中 还 有 进行 SQL 化 管理 HDFS 的 
Hive 组 件 ， 支 持 OLTP 业 务 的 NoSQL 分 布 式 数 据 库 HBase 组 件 ， 进 行 图 
形 界面 管理 的 Ambari 组 件 等 ，Hadoop 生 态 圈 会 增加 越 来 越 多 的 软件 ， 
提高 软件 的 便利 性 


16.2.1 MapReduce 原 理 


之 前 介绍 了 Hadoop 生 态 圈 和 Hadoop 框 架 ， 相 信 读 者 对 Hadoop 是 什 
么 有 了 一 定 的 了 解 ， 那 么 在 Hadoop 框 架 中 最 著名 的 就 是 MapReduce 组 
件 ， 它 的 处 理 逻 辑 来 源 于 谷歌 的 旧 三 敬 马 车 之 一 
MapReduce 是 解决 问题 并 行 任务 的 一 种 模型 ， 将 一 个 可 拆 解 的 任务 分 
散 到 多 个 计算 市 点 进行 计算 ， 最 后 合并 计算 结果 。 


MapReduce!!! o 


例如 ， 现 在 需要 解决 一 个 问题 : 尽 可 能 以 比较 快 的 速度 统计 一 个 
图 书 饰 在 书架 上 一 共 陈 列 了 多 少 本 书 (图 16-3) 。 
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图 16-3 ”统计 图 书馆 的 书 (UE) 


一 种 方法 是 ， 找 一 个 在 数 数 方面 有 超 高 本 领 的 人 ， 由 他 一 个 人 来 
完成 ， 男 一 种 方法 是 ， 座 用 一 大 批 资质 平庸 的 负责 统计 图 书 数 量 的 人 
和 一 个 负责 分 配 任 务 的 人 ， 由 分 配 任 务 的 人 人 负责 划分 区 域 ， 确 体 每 个 
人 都 分 到 一 部 分 要 统计 的 书架 ， 不 重 不 漏 。 然 后 对 所 有 的 人 下 发 开始 


统计 的 指令 ， 统 计 图 书 的 人 将 目 己 人 负责 的 区 域 统计 完成 记录 到 纸 上 ， 

所 有 统计 图 书 的 人 上 交 统 计 结 有 果 后 ， 人 负责 分 配 任 务 的 人 将 所 有 人 的 统 
计 结 果 进 行 累加 ， 得 到 图 书 统计 的 结果 。 如 果 中 途 有 人 因为 一 些 意 外 
原因 发 生计 数 终止 ， 那么 殊 再 派 一 个 人 前 去 重新 完成 他 未 完成 的 工作 


任务 。 


不 难 想象 ， 如 采 方 法 得 当 ， 后 一 种 方法 要 比 前 一 种 方法 靠 谱 一 
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这 个 有 超 高 本 领 的 人 走 不 是 容易 被 找到 ， 他 一 个 人 会 不 会 有 失 
误 ， 他 的 薪水 要 求 是 不 是 太 高 ， 这 些 问 题 的 可 欣 性 会 变 得 非常 不 好 。 
而 资质 平庸 的 人 通常 在 市 场 供应 方面 不 会 让 我 们 那么 担心 ， 只 要 统计 
的 方法 论 和 调度 方式 没有 问题 ， 不 仅 这 种 方式 的 风险 更 小 ， 而 且 成 本 
更 低 ， 速 度 更 快 ，MapReduce 就 是 这 样 一 种 并 行 机 制 。 


下 面 从 辩证 的 角度 来 看 这 种 机 制 的 优点 和 缺点 。 


优点 如 下 


(1) 隐藏 大 量 技 术 细节 。 开 发 人 员 不 需要 关注 容 灾 管 理 、 人 负载 
衡 和 并 行 计 算 实现 的 代码 部 分 ， 只 需要 调用 相关 的 API， 设 置 参数 即 
可 。 


e 


(2) 可 伸缩 性 好 。 在 Map 阶 段 ， 可 以 实现 每 增加 一 台 服务 器 就 将 
计算 能 力 接 入 到 集群 里 ， 而 且 能 实现 在 集群 运行 时 添加 计算 节点 (一 
般 用 在 线 扩容 这 个 技术 名 词 来 描述 这 一 特点 ) 。 


缺点 如 下 。 


(1) 实时 人 性差 。 和 磁盘 交互 频繁 ， 中 间 要 多 次 将 计算 结果 保存 到 
人 磁盘， 使 实时 计算 能 力 大 打折 扣 。 


(2) 编程 习惯 需要 适应 。 需 要 将 在 学 习 《 数 据 结构 》 或 者 算法 理 
论 中 学 习 到 的 算法 实现 方式 转换 成 为 MapReduce 方 式 ， 编 程 时 需要 特 
意 构建 这 种 程序 逻辑 。 而 且 这 种 方式 的 局 限 性 导致 并 非 所 有 的 问题 都 
适合 用 MapReduce 方 式 进行 解决 。 


虽然 有 不 少 缺 点 ， 但 是 Hadoop 仍 然 是 目前 离线 计算 的 利 右 ， 下 面 
介绍 如 何 部 署 一 套 Hadoop 以 及 用 Hadoop 来 做 单词 统计 。 


[1] 谷歌 的 旧 三 罗马 车 是 GFS、MapReduce、BigTable， 新 三 区 马车 是 
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16.2.2 %éHadoop 


本 和 主要 介绍 在 CentOS 7 单机 环境 下 的 Hadoop 搭 建 过 程 。 
1. 准 备 Hadoop 需 要 的 软件 


(1) 安装 Java 软 件 包 。CentOS 7 发 行 版 本 默认 会 安装 Java 运 行 环 
境 ， 可 以 使 用 which 命 令 来 确认 Java 是 否 安装 ， 命 令 如 下 : 


$ which java 
/usr/bin/java 


也 可 以 自行 下 载 和 安装 目 己 需要 的 Java 版 本 ， 建 议 Java 版 本 高 于 
7.0 ° 


这 里 使 用 从 官方 网 站 下 载 的 最 新 版 本 的 Java 开 发 包 ， 下 载 地 址 : 


http://www.oracle.com/technetwork/cn/java/javase/downloads/index.html 。 


将 下 载 好 的 安装 包 安 装 到 指定 位 置 ， 这 里 以 保存 到 /opt 目 孙 下 为 
例 ， 操 作 命 令 如 下 : 


$ tar zxf java-jdk-7.0.tgz 
$ mv java-jdk-7* /opt/java 


设置 环境 变量 “JAVA_HOME”， 这 个 变量 用 来 指定 Java 程 序 的 工作 
目录 。 在 /etc/bashrc 目 录 下 添加 Java 安 装 目 录 ， 命 令 如 下 : 


export JAVA_HOME=/opt/java 


(2) 设置 SSH 通 过 秘 钥 方 式 访 问 。Hadoop 多 个 节点 之 间 通 信 会 采 


用 SSH 秘 钥 认 证 方式 ， 为 避免 每 次 通信 都 需要 用 户 输入 密码 ， 
生成 一 对 SSH 秘 钥 ， 生 成 秘 钥 使 用 如 下 命令 


$ ssh-keygen - 


t rsa 
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
$ chmod 600 ~/.ssh/authorized_keys 


(3) 下 载 Hadoop 软 件 包 。 访 问 


http://hadoop.apache.org/releases.html#Download ， 这 里 提供 了 多 


这 里 需要 


个 版 本 


的 Hadoop 软 件 包 下 载 ， 建 议 读者 测试 和 开发 时 使 用 最 新 的 稳定 版 本 


(Stable) ， 这 里 以 2.6.4 版 本 为 例 ， 下 载 位 置 如 图 16-4 所 示 。 
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Who Uses Hadoop? for tampering using GPG or SHA-256. 
Buy Stuff 
Sponsorship 
11 February, 2016 Qurce signature F755D961 18316335.. 
| binary | signature C58F08D2 E0B13035.. 
25 January, 2016 CUTCe signature 7D48E61B 5464A765.. 
binary signature 49AD740F 85D27FA3.. 
Documentation .6. 17 Dec, 2015 source signature FA0C71B5 CB33A7FD.. 
» Related Projects binary signature ADA83DEC 2FF72D45.. 
28 Oct, 2015 source signature 6996A4A8 OFCE9109.. 
binary signature 56F630D7 0D4C7850.. 
06 July, 2015 source signature 53F3001C 457AD8FD.. 
binary signature 991DC34E A42A80B2.. 
19 Nov, 2014 source signature 139EF872 09C5637E.. 
binary signature 0BDB4850 A3825208.. 


To verify Hadoop releases using GPG: 
Download the release hadoop-X.Y.Z-src.tar.gz from a mirror site. 


Download the signature file hadoop-X.Y.Z-src.tar.gz.asc from Apache. 


Download the Hadoop KEYS file. 
gpg --import KEYS 
gpg --verify hadoop-X.Y.Z-src.tar.gz.asc 


图 16-4 FERME 


下 载 完 成 后 将 Hadoop 解 压缩 到 /opt 目 了 示 ， 并 设置 环境 变量 指向 
Hadoop 的 安装 目录 。 命 令 如 下 : 


$ tar zxf hadoop-2.6.4.tar.gz - 


/opt 

echo 'export HADOOP HOME-/opt/hadoop-2.6.4' >> /etc/bashrc 
source /etc/bashrc 

cd $HADOOP HOME HA 


€) 06 090 


Hadoop 安 装 目录 可 以 看 到 编译 好 的 文件 


2. 修 改 配置 文件 并 局 动 服务 


(1) 修改 Hadoop HDFS 配 置 文件 。 接 下 来 需要 设置 Hadoop 的 配置 
文件 ， 这 种 单机 运行 的 模式 也 称 作 伪 分 布 模式 ， 和 集群 模式 略 有 区 
别 。 这 里 使 用 伪 分 布 模式 进行 部 署 。 修 改 如 下 配置 文件 。 


@®$HADOOP_HOME/etc/hadoop/core-site.xml ° 


<configuration> 
<property> 
«name»fs.defaultFS«/name» 
<value>hdfs: 


//localhost. 


9000</value> 
</property> 
</configuration> 


@$HADOOP_HOME/etc/hadoop/hdfs-site.xml ° 


<configuration> 

<property> 
<name>dfs.replication</name> 
<value>1i</value> 

</property> 

</configuration> 


(2) 启动 Hadoop HDFSARS ° 


QQ 首次 启动 格式 化 存储 空间 。 


$ cd $HADOOP_HOME 
$ bin/hdfs namenode - 


format 


启动 NameNode 和 DataNode 进 程 。 


$ cd $HADOOP_HOME 
$ sbin/start-dfs.sh 


验证 端口 是 否 启动 。 


$ netstat - 


ntpl | grep 9000 


(3) 修改 Hadoop YARN 配 置 文件 。 
@®$HADOOP_HOME/etc/hadoop/mapred-site.xml ° 


<configuration> 

<property> 
<name>mapreduce. framework .name</name> 
<value>yarn</value> 

</property> 

</configuration> 


@$HADOOP_HOME/etc/hadoop/yarn-site.xml ° 


<configuration> 

<property> 

<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value> 


</property> 
</configuration> 


(4) 启动 Hadoop YARNARS ° 
QD 启动 命令 如 下 : 


$ cd $HADOOP HOME 
$ sbin/start-yarn.sh 


G@) 验 证 端口 是 否 启 动 。 
$ netstat - 


ntpl | grep 8088 


伪 分 布 方式 配置 起 来 非常 简单 ， 多 用 于 开发 环境 部 署 ， 接 下 来 瑟 
对 伪 分 布 环境 进行 测试 。 


16.2.3 ”经典 的 WordCount 


提 到 大 数据 的 计算 能 力 测 试 ， 就 一 定 会 有 最 经 典 的 单词 统计 ， 
为 它 可 以 充分 发 挥 各 个 市 点 的 计算 能 力 ， 由 于 Hadoop 采 用 Java 开 发 ， 
这 里 提供 官方 的 WordCount 源 代码 。 


1. 源 代码 
(1) WordCount.java 文 件 源 代 码 如 下 : 


import java.io.IOException 


import java.util.StringTokenizer; 


import org.apache.hadoop.conf.Configuration 


import org.apache.hadoop.fs.Path 


import org.apache.hadoop.io.IntWritable 


import org.apache.hadoop.io.Text 


import 


import 


import 


import 


import 


org.apache 


org.apache 


org.apache 


org.apache 


org.apache 


.hadoop. 


.hadoop. 


.hadoop. 


.hadoop. 


.hadoop. 


public class WordCount { 
public static class TokenizerMapper 
extends Mapper<Object 


Text, 


Text, 


Intwritable>{ 
private final static IntWritable one = new IntWwritable | 


mapreduce. 


mapreduce 


mapreduce 


mapreduce 


mapreduce 


Job: 


.Mapper; 


. Reducer.: 


.lib.input.FileInputFormat 


.lib.output.FileOutputFormat 


private Text word = new Text () ; 


public void map ( 


Object key. 


Text value, 


Context context 


throws IOException 


InterruptedException { 
StringTokenizer itr = new StringTokenizer ( 


value.toString 0): 


while ( 


itr.hasMoreTokens 0 ) 


word.set ( 


itr.nextToken () ) : 


context.write ( 


word. 


one) ; 


j 
j 


public static class IntSumReducer 
extends Reducer«Text. 


Intwritable 


Text, 


Intwritable» { 
private Intwritable result = new IntWwritable 0 : 


public void reduce ( 


Text key, 


Iterable«Intwritable» values 


Context context 
) 


throws IOException 


InterruptedException { 
int sum = 0 


for ( 


Intwritable val 


values) 


sum += val.get 0; 


result.set | 


sum) ; 


context.write ( 


key, 


result). 


j 
j 


public static void main ( 
String[] args 


throws Exception ( 
Configuration conf = new Configuration () ; 


Job job = Job.getInstance | 
conf. 


"word count"). 


job.setJarByClass | 


WordCount.class) : 


job.setMapperClass ( 


TokenizerMapper.class) ; 


job.setCombinerClass | 


IntSumReducer.class) . 


job.setReducerClass ( 


IntSumReducer.class) ; 


job.setOutputKeyClass ( 


Text.class) : 


job.setOutputValueClass (| 


IntwWritable.class) ; 


FileInputFormat.addInputPath (| 


job, 


new Path ( 


args[0]) ) ; 


FileOutputFormat.setOutputPath í 


job. 


new Path ( 


args[1])) : 


System.exit | 


job.waitForCompletion ( 


true) 


(2) 确保 /etc/bashrc 包 含 以 下 环境 变量 。 


export JAVA_HOME=/opt/java 
export PATH=$JAVA_HOME/bin 


$PATH 
export HADOOP_CLASSPATH=$JAVA_HOME/1ib/tools. jar 


(3) 编译 代码 。 


$ bin/hadoop com.sun.tools.javac.Main WordCount.java 
$ jar cf wc.jar WordCount*.class 


(4) 准备 要 统计 的 文件 。 
$ cd $HADOOP_HOME 
(创建 测试 文件 。 


$ echo "Hello World Bye World" > fileO1 
$ echo "Hello Hadoop GoodBye Hadoop" > file02 


@) 将 测试 文本 放 入 HDFS 的 /input 目 录 。 


$ bin/hdfs dfs - 


mkdir /input 
$ bin/hdfs dfs - 


put fileO* /input 


(5) 开始 统计 e 


$ bin/hadoop jar wc.jar WordCount /input /output 


在 终端 上 能 看 到 Map 和 Reduce 的 进度 « 


$ bin/hdfs dfs - 


cat /output/part-r-00000 


输出 结果 如 下 : 


Bye 1 
Goodbye 1 
Hadoop 2 
Hello 2 
World 2 


在 计算 过 程 中 ， 所 看 到 的 Map O 和 Reduce () 的 进度 就 是 将 统 
计 的 所 有 内 容 上 映射 到 指定 的 内 存 块 中 ， 如 果 Hadoop 使 用 集群 环境 ， 这 
些 计算 会 分 布 到 不 同 的 主机 上 实现 并 行 处 理 。 


2. 原 理解 释 


MapReduce 的 过 程 非 常 复 洒 ， 高 手 们 通 癌 喜 欢 直接 翻 看 官方 的 文 
档 和 源 代码 。 


作为 入 门 手册 ， 这 里 只 对 MapReduce 的 过 程 中 发 生 的 逻辑 性 的 操 
作 进行 解释 ， 读 者 明日 原理 了 了 束 知道 怎么 用 了 。 


一 次 完整 的 MapReduce 计 算 处 理 过 程 从 大 的 环节 上 分 为 两 个 音 
分 ， 即 Map 和 Reduce。 完 整 的 流程 是 一 个 从 前 到 后 的 处 理 流 ， 如 图 16- 
SATAN ° 


图 16-5 “处理 流程 
Map 的 处 理 过 程 如 下 。 
第 一 步 : 把 输入 文件 读 进来 。 
第 二 步 : 输出 构造 一 个 Key-Value 文 件 。 


这 一 步 很 重要 ， 因 为 大 部 分 逻辑 都 是 在 Reduce 中 完成 的 ， 所 以 在 
Map 的 部 分 实际 要 完成 对 Reduce 操 作 内 容 的 迎合 性 构造 ， 让 Reduce 能 
够 处 理 以 Key-Value 对 形成 的 文件 内 容 。 


以 刚刚 的 WordCount 为 例 : 


public void map ( 


Object key. 


Text value, 


Context context 


throws IOException 


InterruptedException { 
StringTokenizer itr = new StringTokenizer ( 


value.toString 0): 


while ( 


itr.hasMoreTokens 0 ) 


word.set ( 


itr.nextToken () ) : 


context.write ( 


word, 


one) ; 


XX — BEY BT FER, tet AY SCE HE ET TO, 
然后 把 切割 完毕 后 得 到 的 每 个 词 都 输出 成 


ijone 


HIII 


构造 的 输入 文件 是 fle01 和 file02: 


Hello World Bye World 
Hello Hadoop GoodBye Hadoop 


所 以 中 间 结 果 部 分 输出 的 文件 实际 上 变 成 了 


Hello one 
World one 
Bye one 
World one 
Hello one 
Hadoop one 
GoodBye one 
Hadoop one 


为 了 让 Reduce 可 以 分 段 处 理 ， 还 做 了 一 个 排序 。 这 里 需要 强调 的 
是 ， 排 序 实际 上 不 是 这 么 做 的 ， 这 里 这 人 么 写 完 全 是 为 了 容易 理解 。 


Bye one 
GoodBye one 
Hadoop one 
Hadoop one 
Hello one 
Hello one 
World one 
World one 


Reduce 的 处 理 过 程 如 下 。 
第 一 步 : 把 文件 读 进来 。 
第 二 步 : 对 一 个 Key 的 文本 部 分 进行 处 理 。 
Reduce 最 核心 的 代码 如 下 : 


public void reduce ( 


Text key, 


Iterable«Intwritable» values 


Context context 
) 


throws IOException 


InterruptedException { 
int sum = 0 


for ( 


Intwritable val 


values) 


sum += val.get () ; 


result.set | 


sum) ; 


context.write (| 


key, 


result). 


这 部 分 代码 在 做 一 个 循环 ， 只 是 不 是 过 历 整个 TEMP 文件 ， 而 是 
只 能 看 到 其 中 一 个 Key 所 禾 盖 的 部 分 ， 不 同 的 Key 会 被 分 给 不 同 的 


Reduce 程 序 实例 。 


也 束 是 说 ， 在 刚刚 这 个 例子 中 ， 会 有 5 段 Reduce 程 序 实例 被 局 动 ， 
它们 会 被 框架 分 配 到 不 同 的 节点 (如 果 有 ) 分 别处 理 。 


Part1: 


Bye one 


Part2: 


GoodBye one 


Part3: 


Hadoop one 
Hadoop one 


Part4: 


Hello one 
Hello one 


Part5: 


World one 
World one 


这 样 5 段 答 入 文件 分 别 产 生 的 输出 结 采 如 下 。 


Part1: 


Bye 1 


Part2: 


GoodBye 1 


Part3: 


Hadoop 2 


Part4: 


Hello 2 


Part5: 


World 2 


sUH EMETA, ARA: 


Goodbye 1 
Hadoop 2 
Hello 2 
world 2 


eee 


整个 过 程 束 像 在 图 书 饮 里 数 图 书 数量 一 样 ， 多 个 人 一 起 做 ， 最 后 
做 一 个 合并 。Map 和 Reduce 在 一 次 运行 的 过 程 中 都 可 能 会 有 多 个 实例 
出 现 ， 每 个 实例 处 理 一 部 分 数据 ， 通 过 彼此 协同 完成 整个 海量 数据 的 
计算 操作 。 


WordCount 是 MapReduce 入 门 最 经 典 的 例子 。MapReduce 所 能 处 理 
的 事物 也 远 比 这 个 例子 复杂 ， 甚 至 可 以 出 现 MapReduce 之 后 紧 跟 一 个 
MapReduce， 类 似 用 管道 进行 处 理 的 方式 。 有 兴趣 的 读者 可 以 在 网 上 
寻找 更 多 关于 MapReduce 示 例 。 


16.3 Spark 框架 


Spatk 框 架 是 一 个 快速 晶 API 丰 证 的 内 存 计算 框架 。Spark 采 用 Scala 
语言 编写 ，Scala 是 基于 JVM 的 语言 ， 性 能 开销 小 。 


在 Spark， 一 切 计算 都 是 基于 RDD 句 柄 来 进行 操作 的 。RDD 惑 像 一 
个 数据 容器 ， 可 以 有 输入 口 ， 可 以 有 输出 口 。 在 内 存 中 ，Spark 使 用 


Tachyon 一 一 一 种 类 似 于 内 存 中 的 HDFS 的 内 存 分 布 式 存储 框架 ， 这 样 
使 得 读 写 速 度 有 了 极 大 的 提高 《官方 说 是 100 倍 ) 。 


Spark 提 供 了 大 量 的 应 用 程序 接口 ， 如 Python、Scala、Java 以 及 
SQL 接口 ， 还 可 以 使 用 HDFS、Hive、Cassandra 等 作为 数据 源 ， 它 的 外 
部 接口 非常 丰富 ， 而 且 自 身 文 持 了 很 多 组 件 ， 主 要 组 件 如 图 16-6 所 示 。 


Spark Spark MLIlib GraphX 
SQL Streaming (machine learning ) ( graph ) 


Apache Spark 


图 16-6 Spark 的 组 件 


1.Spark Core 


Spark Core 是 指 Spark 的 核心 功能 ， 包 括 任务 调度 、 内 存 分 配 回 收 、 
RDD (弹性 分 布 式 数 据 集 ，Resilient Distributed Dataset) 操作 、API 处 


理 等 ， 是 Spark 的 核心 组 件 。 
2.Spark SQL 


Spark SQL 最 早 采 用 了 Apache Hive 的 SQL 版 本 ， 当 时 被 称 作 
Shark， 它 可 以 让 用 户 通过 SQL 来 操作 RDD， 而 且 能 够 支持 交互 方式 的 
数据 访问 。 但 是 因为 效率 不 高 ， 在 1.0 版 本 重新 编写 了 Spark SQL 来 取代 
HQL (Hive 版 本 的 SQL， 也 有 的 资料 上 会 写作 HiveQL) ， 使 用 SQL 操 
作 Spark RDD 大 大 降低 了 Spark 编 程 的 难度 。 


3.Spark Streaming 


Spark Streaming 是 流 式 计算 组 件 。 在 Spark Streaming 里 ， 流 处 理 实 
际 用 的 是 Micro-Batch 的 方式 ， 即 微 批 处 理 。 什 么 是 Micro-Batch? Batch 
是 批 处 理 的 意思 ， 就 是 一 次 性 处 理 需要 的 事务 ， 中 间 不 需要 和 人 进行 
交互 。 而 Micro-Batch 处 理 的 对 象 是 以 宫 秒 为 单位 的 微小 的 批 处 理 。 


可 以 在 内 存 里 把 输入 的 流 数 据 “ 换 " 够 1 秒 、2 秒 或 者 其 他 时 间 长 
度 ， 然 后 把 攒 起 来 的 数据 当做 一 个 RDD 块 。 一 个 RDD 块 上 能 够 进行 什 
么 计算 和 操作 ， 那 么 这 个 Micro-Batch 上 就 能 够 进行 同样 的 计算 和 操 
作 。 为 了 避免 提交 作业 过 于 频 莹 而 导致 开销 占 比 过 大 的 问题 ， 通 单 不 
推荐 去 做 毫秒 级 别 的 Micro-Batch， 请 大 家 注意 这 点 。 


4.MLlib 


MLlib 是 Spark 的 机 器 学 习 (ML) 组 件 ， 提 供 了 大 量 的 可 集群 化 的 
算法 ， 包 括 聚 类 、 分 类 、 逮 辑 回归 、 协 同 过 滤 等 。 


5.GraphX 


GraphX 是 可 以 进行 集群 化 的 图 形 计算 和 图 形 挖掘 组 件 。 这 种 组 件 
非常 适合 用 于 微 信 、 微 博 等 各 种 社交 网 络 产品 的 用 户 关 系 或 者 产品 关 
系 计 算 ， 这 比 用 省 卡 儿 积 的 方式 去 做 还 是 轻 量 很 多 。 


这 些 封 装 好 的 组 件 都 为 使 用 Spark 提 供 了 很 大 的 便利 ， 再 加 上 友好 
的 API、 比 Hadoop 更 快 的 处 理 速度 ， 使 Spark 逐 渐 抢 占 Hadoop 的 市 场 份 
额 ， 在 开源 大 数据 计算 中 出 现 的 频率 越 来 越 高 。 接 下 来 安装 Spark 并 用 
Spark 来 演示 如 何 进行 单词 统计 (WordCount) ° 


16.3.1 ”安装 Spark 


1. 下 载 


Spark 文 持 很 多 版 本 ， 目 前 主流 的 是 1.6.0 版 本 ， 为 了 便于 学 习 先 下 
载 预 编译 版 本 ， 访 问 http://spark.apache.org 选择 Download 命 令 ， 之 后 进 
A FERAH ° 


在 Choose a Spark release 下 拉 列 表 框 中 选择 1.6.0 版 本 ， 这 是 最 新 的 
稳定 版 本 。 在 Choose a package type 下 拉 列 表 框 中 选择 Pre-built for 
Hadoop 2.6 and laterj 秋 项。 这 里 选择 产 代 码 版 本 或 预 编译 版 本 ， 由 于 之 
前 安装 的 Hadoop 为 2.6 版 本 ， 这 里 选择 此 项 ， 读 者 可 以 根据 实际 环境 进 
行 选择 。 在 Choose a download type 下 拉 列 表 框 中 选择 Direct Downloadiz 
项 直接 进行 下 载 ， 之 后 单 击 出 现 的 链接 地 址 就 可 以 下 载 了 。 下 载 界 面 
如 图 16-7 所 示 。 


€1> 


0 2 Q 
Spar Í d Lightning-fast cluster computing 


Download Libraries - Documentation - Examples Community ~ FAQ 


Download Apache Spark™ 


Our latest version is Spark 1.6.0, released on January 4, 2016 (release notes) (git tag) 
. Choose a Spark release: 1.6.0 (Jan 042016) $ 
. Choose a package type: Pre-built for Hadoop 2.6 and later 


. Download Spark: spark-1.6.0-bin-hadoop2.6.tgz 
. Verify this release using the 1,6.0 signatures and checksums, 
Note: Scala 2.11 users should download the Spark source package and build with Scaía 2.11 support. 


1 
2 
3. Choose a download type: Direct Download c 
4 
5 


图 16-7 下 载 界面 


此 外 还 需要 下 载 Scala: 访问 http://www.scala-lang.org/download/ 下 
载 最 新 的 稳定 版 本 ， 下 载 位 置 如 图 16-8 所 示 。 


zi Scala DOCUMENTATION DOWNLOAD CC 


DOWNLOAD 


Choose one of three ways to get started with Scala! 


Download Scala 2.11.7 binaries for your system (All downloads), 


oO Scala 2.11.7 


Need halp installing? 


Al16-8 ” ”Scala 下载 位 置 


2. 环 境 准 备 


由 于 Spark 是 采用 Scala 语 言 编 写 的 ， 因 此 需要 在 Java 虚 拟 机 
(JVM) 上 面 运行 ,为 了 更 好 地 兼容 其 他 的 大 数据 软件 ， 这 里 建议 至 
少 在 Java 7 版 本 以 上 ， 如 果 需 要 进行 Scala 和 和 Python 的 开发 ， 需 要 安装 
Scala 和 Python 的 解释 器 (Python 解释 器 安装 方法 请 参考 附录 ) 


首先 要 确 你 Java 环 境 变 量 存 在 ， 同 上 一 节 Hadoop 配 置 ， 确 
保 /etc/bashrc 存 在 以 下 代码 行 : 


export JAVA_HOME=/opt/java 
3, CAR 
将 Scala 安 装 到 /opt 目 孙 ， 使 用 命令 如 下 : 


$ tar zxf scala-2.11.7.tgz 
$ mv scala-2.11.* /opt/scala 


安装 完成 后 ， 需 要 设置 环境 变量 。 确 保 以 下 配置 在 /etc/bashrc 文 件 
中 存在 : 


export SCALA_HOME=/opt/scala 


安装 Spark 命 令 如 下 : 


$ tar zxf spark-1.6.0-hadoop2.6.tgz - 


C /opt 
$ mv /opt/spark-1.6* /opt/spark 


将 Spark 安 装 目 录 设 置 为 环境 变量 加 入 /etc/bashrc 文 件 ， 命 令 如 下 : 


export SPARK_HOME=/opt/spark 


16.3.2 ”使 用 Scala 计 算 WordCount 


Spark 文 持 交 互 式 和 非 交 互 式 两 种 操作 形式 ， 使 用 交互 式 进行 计算 
可 以 执行 以 下 命令 : 


$ cd $SPARK_HOME 
$ bin/spark-shell 


执行 完成 后 会 进入 Scala 交 互 界 面 。 


也 可 以 编写 Scala 脚 本 执行 非 交 互 方式 命令 ， 但 是 需要 先导 入 Spark 
相关 的 库 进 行 初始 化 ， 代 码 如 下 : 


import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext._ 
val conf = new SparkConf 0 


.setMaster ( 


"localhost") 


.setAppName ( 


"App Name") 


val sc = new SparkContext ( 


conf) 


为 了 便于 初学 的 读者 学 习 ， 这 里 使 用 交互 式 演示 利用 Spark 计 算 
WordCount ° 


首先 查看 构建 好 的 文件 ， 命 令 如 下 : 


$ cat /tmp/fileo1 

Hello World Bye World 

$ cat /tmp/file02 

Hello Hadoop Bye Hadoop 


进入 Spark 交 互 环境 ， 执 行 如 下 命令 


$ cd $SPARK_HOME 
$ bin/spark-shell 
// 读 取 要 统计 的 文件 ， 如 果 作 为 独立 脚本 运行 ， 需 要 先进 行 初始 化 


scala> val input = sc.textFile ( 


"/tmp/fileo*") 


// 将 每 行 以 空格 做 分 隔 ， 分 割 成 多 个 单词 


scala» val words = input.flatMap | 


line => line.split ( 


// 统计 单词 的 数量 


scala» val count = words.map ( ( 


. reduceByKey ( 


// 将 统计 结果 打印 到 


a 


scala» count.collect 0) 


. foreach ( 


println) 


Bye, 


Hello. 


World. 


Hadoop. 


16.4 ”分 布 式 列 存 储 框架 


在 生产 生活 中 会 接触 到 很 多 信息 数据 ， 而 大 部 分 信息 是 由 非 结构 
化 数据 组 成 的 ， 特 别 是 在 大 数据 处 理 过 程 中 尤为 明显 。 这 些 数 据 都 无 
法 用 关系 型 数据 库 的 思维 方式 建 模 ， 因 此 在 大 数据 的 处 理 过 程 中 ， 就 
出 现 了 很 多 非 结 构 化 数据 处 理 需 求 。 


为 了 存储 便利 ， 易 于 理解 ， 在 完整 的 大 数据 体系 中 采用 了 很 多 
NoSQL (Not Only SQL 的 缩写 ) 数据 库 。 基 于 NoSQL 理 念 设计 的 最 著 
名 的 系统 是 Google 的 BigTable 和 滑铁卢 大 学 开发 的 HBase。Facebook 将 
Google BigTable 和 Amazon Dynamo 的 完全 分 布 式 架构 集 于 一 身 ， 开 发 
了 Cassandra， 后 于 2010 年 正式 成 为 了 Apache 基 金 会 项 目 。Cassandra 和 
HBase 的 出 现 不 但 使 NoSQL 的 处 理 速 度 得 到 了 前 所 未 有 的 提升 ， 而 且 
它们 能 够 组 成 集群 化 也 为 Hadoop、Spark 等 需要 大 容量 数据 快速 写 入 的 
业务 场景 提供 了 非常 有 用 的 工具 。 和 著名 的 甲骨 文公 司 Oracle 也 有 上 自己 
的 NoSQL 产 品 ， 叫 做 NoSQL Database。 


1.Cassandraf&j 4r 


Cassandra 的 名 字 来 源 于 希腊 神话 的 一 位 女 先 知 ， 因 此 该 项 目的 
Logo 是 一 只 明亮 的 眼睛 。 最 突出 的 特点 是 它 的 可 扩展 性 ， 给 集群 添加 


新 让 点 时 ， 可 以 直接 指向 新 的 主机 ， 不 必 重 局 任何 进程 和 改变 任何 查 
询 ， 是 非常 便利 的 目 动 热 扩展 机 制 。 这 古 一 个 非常 好 的 特性 。 


此 外 ，Cassandra 下 有 一 个 优 展 的 特性 ， 即 支持 SQL 语 言 。 这 也 让 
广大 的 SQL 爱 好 者 觉得 非常 亲切 ， 大 大 降低 了 学 习 的 门槛 。 


2.HBase 人 简介 


HBase 采 用 Java 语 言 开 发 ， 和 Cassandra 一 样 ， 同 样 借鉴 了 Google 的 
BigTable 模 型 ， 主 要 为 Hadoop 生 态 圈 提 供 了 列 存储 服务 。 


HBase 使 用 HFile 对 文件 进行 列 式 存储 ，HFile 存 储 以 列 族 为 单位 。 
在 读 取 时 如 果 只 需 用 行 键 作 为 索引 要 扫描 一 个 列 族 的 内 容 ， 那 么 其 他 
不 相干 的 列 族 即便 存在 和 索引 条 件 对 应 的 逻辑 关系 也 不 会 被 扫描 到 ， 
这 种 方式 在 一 定 程度 上 避免 了 IO 拥塞 ， 也 更 加 适合 这 种 小 尺寸 的 OLIP 
操作 e 


但 是 和 Cassandra 一 样 ，HBase 也 不 文 持 事务 操作 © 
3.Cassandra 和 HBase 对 比 


(1) Cassandra 部 署 更 简单 。Cassandra 只 有 一 种 角色 ， 而 HBase 除 
T Region Server 外 还 需要 ZooKeeper 来 同步 集群 状态 。 


(2) 数据 一 致 性 是 否 可 配置 。Cassandra 的 数据 一 致 性 是 可 以 配 
置 的 ， 可 以 更 改 为 最 终 一 致 性 ， 而 HBase 是 强 一 致 性 的 。 


(3) 负载 均衡 算法 不 同 。Cassandra 通 过 一 致 性 哈 希 来 决定 数据 
存储 的 位 置 ， 而 HBase 靠 Master 太 点 管理 数据 的 分 配 ， 将 过 热 的 节点 上 
的 Region 动 态 分 配给 负载 较 低 的 节点 。 因 此 Cassandra 的 平均 性 能 会 优 
于 HBase， 但 是 Hbase 有 MasterT 点 ， 热 数据 的 负载 更 均衡 。 


(4) 单 点 问题 。 正 是 由 于 Hbase 存 在 MasterT 点 ， 因 此 会 存在 单 
点 问题 。 


16.5 PrestoDB—— ”神奇 的 CLI 


16.5.1 Presto 为 什么 那么 快 


有 这 么 一 句 话 “天 下 武功 ， 唯 快 不 破 ”， 而 Presto 就 会 给 人 们 这 样 一 
种 体验 。 
Presto 诞 生 于 Facebook， 由 Facebook 内 部 工程 师 和 开源 社区 工程 师 


共同 进行 维护 ， 它 整 古 一 种 超 快 的 SQL 查 询 工具 ， 它 诞生 的 主要 用 途 
束 定 作为 Hive 和 Pig 的 奉 代 产品 ， 快 速 地 完成 海量 的 数据 查询 工作 。 


Presto 不 但 能 够 解析 SQL 还 能 文 持 多 种 数据 源 ， 如 HDFS、 
Cassandra、MySQL 等 。 但 是 Presto 并 不 是 传统 的 数据 库 ， 还 不 能 文 持 
在 线 事务 处 理 。 它 更 像 古 一 个 分 布 式 查询 中 间 件 ， 采 用 了 分 布 式 查询 
引擎 ， 同 时 读 取 多 个 数据 产 中 的 大 数据 集 。 它 的 集群 结构 如 图 16-9 所 


修 ° 


Hive 
Presto 
Metastore 
Worker 


Presto 
Coordinator Worker 


Presto 
Worker 


图 16-9 ”Presto 的 集群 结构 


Presto 
CEE 


Presto 分 为 CLI、Coordinator、Worker3 个 部 分 ， 其 中 服务 器 部 分 的 
Coordinator 可 以 看 作 是 调度 各 个 worker 的 调度 器 ， 而 且 它 还 承担 着 让 客 
户 端 CLI 角 色 连 接 的 功能 。 它 将 大 量 的 计算 分 配 到 Worker 来 执行 ， 保 证 
Presto 能 够 快速 地 进行 SQL 查询 。 


pa 


16.5.2 ”安装 Presto 


1. 下 载 


访问 以 下 链接 来 下 载 最 新 版 本 的 Presto 安 装 包 ， 也 可 以 定期 访问 官 
方 文档 ， 来 获取 最 新 版 本 : 


https://prestodb.io/docs/current/installation/deployment.html ° 


将 下 载 的 安装 包 解 压缩 ， 创 建 一 个 etc 目 录 ， 命 令 如 下 : 


$ tar zxf presto-server-0.138.tar.gz - 


C /opt 

$ mv /opt/presto-server-0.* /opt/presto 
$ cd /opt/presto 

$ mkdir etc 


2. 配 置 Presto 支 持 Hive 


Presto 需 要 配置 以 下 4 类 信息 来 完成 基本 设置 ， 需 要 将 配置 文件 放 
入 etc 目 杂 。 


(1) 节点 属性 ， 每 个 节点 的 名 称 和 数据 存储 位 置 。 


(2) JVM 参 数 ， 运行 时 的 内 存 参数 。 


(3) 服务 器 属性 Presto 阶 段 运行 时 的 角色 信息 
(4) Catalog 属性: 连接 指定 数据 源 的 信息 。 
节点 属性 配置 文件 etc/node.properties 内 容 如 下 : 


# 集群 名 称 


node.environment=production 
# 集群 的 唯一 标示 ， 避 免 同 网 络 环境 多 套 


Presto 集 群 互相 干扰 


node ,id=ffffffff-ffff-ffff-ffff-ffffffffffff 
# 数据 存储 的 目录 


node.data-dir=/var/presto/data 


JVM 参 数 文件 etc/jvm.config 内 容 如 下 : 


-server 
-Xmx16G 
- XX: 


*UseG1GC 
- XX: 


o 


GiHeapRegionSize=32M 
-XX: 


TUseGCOverheadLimit 
- XX: 


*ExplicitGCInvokesConcurrent 
-XX: 


+HeapDumpOnOutOfMemoryError 
-XX: 


OnOutOfMemoryError=kill -9 %p 


Presto 会 将 运行 的 VM 虚拟 机 参数 设置 为 此 内 容 。 


服务 絮 属 性 配置 文件 etc/config.properties 包 含 服 务 妮 角色 信息 ， 如 
果 只 作为 Coordinator， 应 该 至 少 包含 以 下 信息 : 


coordinator=true 
node-scheduler.include-coordinator-false 
http-server.http.port-8080 
query.max-memory-50GB 
query.max-memory -per -node=1GB 
discovery-server.enabled-true 
discovery.uri-http: 


//example.net: 


8080 


如 果 只 作为 Worker， 应 该 至 少 包 含 如 下 信息 : 


coordinator=false 
http-server.http.port-8080 
query.max-memory-50GB 

query .max-memory -per -node=1GB 
discovery.uri=http 


//example.net: 


8080 


dp Hi PrestolJZ2JB&, PAK — EHLE Coordinator, 
也 作为 Worker， 应 该 包含 以 下 信息 : 


coordinator=true 
node-scheduler.include-coordinator-true 
http-server.http.port-8080 
query.max-memory-5GB 
query.max-memory-per -node-1GB 
discovery-server.enabled-true 
discovery.uri-http 


//example.net: 


8080 


coordinator 选 项 用 来 指定 Presto 实 例 是 否 作为 一 个 Coordinator 来 接 
收 客户 端的 信息 


node-scheduler.include-coordinator H TE Presto (il E 73 Coordinator 
角色 时 才 有 用 处 ， 用 来 进行 任务 调度 。 


http-serverhttp.port 用 来 指定 服务 的 端口 ，Presto 使 用 HTTP 协 议 进 


EUN Ya 


行 通信 。 


discovery-server.enabled 表 示 Presto 通 过 自动 发 现 机 制 来 找到 集群 中 
所 有 的 节点 。 


discovery.uri 通 常 指 癌 Presto 实 例 的 Coordinator 角 色 ，Coordinator 角 
色 通 过 内 磐 的 目 动 发 现 服 务 接收 Worker 角 色 的 注册 。 


Catalog 属 性 通过 在 etc/catalog 下 创建 属性 文件 来 完成 属性 的 注册 。 
Catalog 通 过 connectors 访 问 数 据 源 。 例 如 ， 创 建 一 个 
etc/catalog/hive.properties 文 件 来 访问 Hive 数 据 源 ， 配 置信 息 如 下 : 


connector .name=hive-hadoop2 
hive.metastore.uri=thrift: 


//example.net: 


9083 


针对 不 同 的 Hadoop 版 本 ，Presto 有 对 应 的 Hive connector, i E x 
持 以 下 4 种 。 


(1) hive-hadoop1: Apache Hadoop 1.x ° 
(2) hive-hadoop2: Apache Hadoop 2.x ° 
(3) hive-cdh4: Cloudera CDH 4 ° 
(4) hive-cdh5: Cloudera CDH 5 ° 


完成 以 上 的 基本 配置 ，Presto 就 可 以 正式 启动 了 。 


3. 启 动 Presto 


可 以 使 用 bin/launcher 来 启动 Presto 实 例 ， 为 了 便于 调试 ，Presto 提 
供 了 两 种 局 动 方式 ， 前 台 局 动 命令 如 下 : 


$ bin/launcher run 


可 以 将 日 志和 查询 结果 输出 到 当前 终端 。 也 可 以 在 后 台 局 动 ， 避 
免 因 关闭 终端 导致 程序 退出 ， 后 台 局 动 命 令 如 下 : 


$ bin/launcher start 


更 多 的 命令 选项 可 以 通过 help 参 数 来 获取 ， 命 令 如 下 : 


$ bin/launcher - 


help 


为 了 连接 到 指定 的 Presto 实 例 ， 需 要 使 用 Presto CLI 功 能 进行 连 
接 ， 可 以 访问 以 下 地 址 下 载 Presto CLI: 
https://repo1.maven.org/maven2/com/facebook/presto/presto- 


cli/0.138/presto-cli-0.138-executable.jar ° 


这 是 一 个 可 执行 的 jar 文 件 ， 下 载 后 重 命名 为 presto， 赋 予 可 执行 权 
限 后 即 可 运行 ， 相 关 命 令 如 下 : 


$ mv presto-cli-0.138-executable.jar presto 
$ chmod +x presto 
$ ./presto --server localhost: 


80 --catalog hive --schema default 


(1) server 人 参数 指定 Presto 的 Coordinator 的 了 地址 和 端口 ， 这 里 使 
用 了 本 机 的 也 地 址 和 端口 。 


(2) catalog 参 数 为 Presto 集 群 定 义 catalog 名 称 。 
(3) schema 参 数 指定 默认 访问 的 数据 库 名 称 。 


连接 成 功 后 ， 可 以 执行 查询 SQL 语 句 来 享受 Presto 带 来 的 飞 一 样 的 
速度 。 


如 有 果 读 者 有 兴趣 还 可 以 参考 这 篇 博文 : 
http://7737197.blog.51cto.com/7727197/1727186 ， 是 关于 部 署 Presto on 
Cassandra 的 ， 就 是 把 Cassandra 作 为 Presto 的 数据 源 。 


16.6 ”小结 


Hadoop、Spark、PrestoDB 等 大 数据 框架 有 着 非常 好 的 稳定 性 、 扩 
展 性 、 高 可 用 性 等 优势 ， 在 企业 应 用 中 有 着 非常 好 的 前 景 。 


本 章 介绍 的 大 数据 框 以 基本 都 是 分 布 式 数据 处 理 的 框架 ， 优 势 是 
处 理 单机 不 方便 处 理 的 数据 存储 、 数 据 统计 、 数 据 排序 的 操作 。 但 是 
对 于 和 迭代 性 较 强 的 机 需 学 习 来 说 ， 刚 刚 介 绍 的 这 些 大 数据 框 娘 会 有 不 
适用 的 地 方 ， 有 不 少 算法 也 不 适合 迁移 到 其 上 来 进行 操作 。 


建议 使 用 以 下 两 种 办 法 。 


办 法 一 : 使 用 抽样 方法 提取 少量 数据 ， 把 学 习 或 分 析 挖 掘 的 内 容 
放 在 一 台 计 算 机 上 进行 计算 和 处 理 。 

办 法 二 : ”使 用 分 布 式 的 深度 学 习 框 架 来 处 理 极 大 规模 的 机 器 学 习 
数据 ， 如 Caffe，Caffe 的 最 新 版 已 经 支持 分 布 式 GPU 在 CNN 网 络 训练 


fe 


第 17 章 ”系统 架构 和 调 优 


在 多 年 做 架构 师 的 过 程 中 ， 有 不 少 朋 友和 我 探讨 过 系统 调 优 的 思 
路 ， 也 有 一 些 年 轻 的 同事 会 来 请 教 ， 有 的 人 提出 的 调 优 问题 非常 具 
体 ， 而 有 时 候 有 的 人 会 非常 泛泛 地 提出 一 个 问题 “系统 怎么 调 优 ”。 


通常 具体 的 问题 因为 场景 确定 ， 所 以 相对 比较 好 回答 ， 而 泛泛 的 
问题 通常 不 容易 回答 。 笔 者 对 调 优 的 思路 进行 了 总 结 跟 大 家 进行 分 享 
与 讨论 。 不 管 你 用 的 是 Linux、Windows 还 是 一 些小 型 机 用 的 UNIX 系 
统 亦 或 其 他 系统 ， 优 化 这 个 话题 几乎 是 永远 避 不 开 的 。 


水 远 没 有 最 快 只 有 更 快 ， 人 类 对 效率 的 苛求 是 信 禁 的 ， 当 然 这 也 
征 人 类 技术 进步 的 重要 原动力 之 一 。 


PAREMA E AUTE? 优化 有 没有 一 些 原则 或 者 判断 标准 ? 管 
KE HEM ° 

首先 必须 明确 一 个 问题 ， 即 优化 是 在 优化 什么 ? 

优化 是 有 着 对 象 和 目标 的 ， 如 果 抛 开 对 象 和 目标 来 谈 ， 优 化 几乎 
征 一 个 没 头 没 尾 的 伪 命 题 。 回 想 一 下 ， 在 什么 情况 下 我 们 会 将 * 优 
化 ”一 词 脱 口 而 出 ? 很 多 读者 估计 也 有 类 似 的 体会 ， 那 就 是 ， 在 对 系统 
目前 的 状况 不 满意 或 者 不 满足 的 时 候 。 而 这 些 情况 通常 包括 两 个 大 的 


方面 : 一 个 是 时 间 ， 一 个 是 空间 。 我 们 无 非 是 对 这 两 种 情况 中 的 一 种 
或 者 两 种 的 当前 状况 不 满 ， 几 乎 找 不 到 第 三 种 东西 来 衡量 。 而 用 来 文 
持 这 两 个 方面 的 因素 ， 如 CPU、 内 存 、 和 磁盘、 网络， 这些 因 素 称 为 货 
源 。 


17.1 速度 资源 的 配置 


对 速度 的 不 满 在 调 优 的 场景 里 占 大 多 数 ， 速 度 的 不 满 一 般 来 说 也 
征 分 两 种 : 


一 种 是 对 一 个 “体型 " 较 大 的 任务 执行 的 时 间 过 长 不 满 ; 


一 种 是 对 一 个 “体型 ? 较 小 的 任务 的 啊 应 速度 过 长 不 满 。 


这 两 种 不 满 看 上 去 都 是 一 样 的 速度 问题 ， 但 是 思路 不 完全 一 样 。 
一 般 来 说 ， 在 做 这 类 优化 之 前 先 要 做 一 件 事 ， 束 古 判 断 一 下 究竟 是 资 
源 不 足 ， 还 古 资 源 分 配 不 合理 。 


常见 的 场景 可 能 有 以 下 这 些 : 例 如， 一 个 进程 在 服务 右上 运行 ， 
但 是 速度 确实 比 期 望 的 慢 ， 而 CPU 和 磁盘 的 带宽 却 大 量 内 置 ， 这 种 情 
况 下 很 显然 古 闹 源 配置 不 合理 。 因 为 资源 不 是 不 够 ,而 是 由 于 线程 调 
度 ， 或 者 算法 ， 或 者 其 他 一 些 原因 没有 被 利用 上 。 这 种 情况 下 估计 你 
去 申请 购买 新 机 器 ， 如 果 老 板 花 的 确实 是 目 己 的 钱 的 话 十 有 八 九 是 不 
会 给 你 批 鸭 ， 相 信 我 。 


17.1.1 思路 一 : 逻辑 层面 的 优化 


在 服务 器 上 跑 的 程序 ， 尤 其 是 Batch 通 常 是 彼此 之 间 独 立 的 。 这 种 
情况 下 ， 其 实 是 可 以 考虑 让 它们 同时 来 执行 ， 充 分 利用 CPU 和 内 存 的 
资源 。 但 是 也 要 注意 ， 要 确认 这 种 变化 给 人 磁 副 市 来 的 JO 增加 不 会 让 它 
成 为 系统 的 邢 贷 。 这 束 古 进程 级 别 的 并 发 。 


还 有 的 时 候 一 个 进程 可 以 分 解 为 多 个 独立 作业 和 一 个 合并 操作 ， 
那么 这 种 情况 下 通常 可 以 尝试 着 多 局 动 儿 个 进程 或 者 线程 ， 计 每 个 进 
程 或 者 线程 处 理 整 个 作业 的 一 部 分 ， 最 后 结束 的 时 候 做 一 个 作业 结 
的 “合并 ”操作 ， 提 高 并 行 化 ， 提 高 资源 利用 率 。 这 种 应 用 比较 典型 的 
就 是 Hadoop 环 境 中 的 MapReduce 程 序 ， 实 际 是 在 很 多 市 点 各 启动 若干 
个 Map 进 程 和 Reduce 进 程 ， 让 它们 在 不 同市 点 上 操作 ， 分 摊 IO 和 CPU 
的 资源 压力 。 在 单 台 服务 器 上 也 有 类 似 的 操作 ， 如 一 个 MySQL 服 务 器 
进程 在 接受 一 个 SQL 请 求 时 ， 这 个 SQL 不 论 请 求 多 少 个 表 ， 不 论 它 有 
多 少 个 不 相干 的 子 查询 ， 不 论 写 得 有 多 “优美 >， 它 都 只 能 在 一 个 CPU 
内 核 上 一 步 一 步 地 走 下 去 。 所 以 ， 如 果 采 用 MySQL 环 境 做 关联 分 析 ， 
就 只 能 把 一 个 SQL 中 的 两 个 独立 子 查询 放 到 两 个 或 者 更 多 的 线程 ( 进 
Tg) 里 去 做 请 求 ， 再 用 一 个 监控 线程 (进程 ， 观 察 结果 ， 最 后 做 连接 
查询 。 有 必要 的 话 可 以 使 用 Memory 内 存 视图 的 Hash 索 引进 行 速度 优 
化 。 


17.1.2. 思路 二 : 容器 层面 的 优化 


当 一 台 或 多 台 服 务 右 上 有 很 多 进程 ， 但 是 资产 占用 普 遇 比较 低 


务 
时 ， 还 可 以 考虑 使 用 容器 层面 的 优化 。 


可 以 使 用 KVM 或 者 Docker 这 样 的 容 絮 把 服务 器 资源 划分 成 多 个 虚 
拟 的 服务 器 资源 。 这 种 情况 下 ， 原 本 在 多 个 服务 右 的 少量 负载 经 过 迁 
移 会 合 起 来 加 载 在 一 个 服务 器 上 ， 而 市 省 出 来 的 服务 絮 资 源 可 以 用 来 
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做 其 他 的 服务 ， 在 硬件 的 成 本 上 会 有 一 大 笔 节 省 。 
现在 的 阿里 云 、 腾 讯 云 、 金 山 云 、 亚 马 进 云 等 云 产 品 服务 商 就 是 
大 规模 使 用 了 虚拟 化 技术 ， 从 而 使 得 运 维 成 本 大 为 降低 。 


虽然 容 需 层面 的 优化 对 于 直接 减少 程序 运行 的 时 间作 用 较为 间 
接 ， 但 在 庞大 的 系统 内 提高 硬件 整体 的 使 用 效率 还 十 非常 有 好 处 的 。 


17.1.3 ”思路 三 ， 存储 结构 层面 的 优化 


目前 在 服务 器 普遍 配置 了 RAID10 人 磁盘 阵列 以 后 ， 人 磁盘 IO 在 硬件 层 
面 进一步 并 行 化 的 余地 越 来 越 小 了 。 那 么 还 有 没有 其 他 的 办 法 可 以 对 
IO 层面 进行 优化 呢 ? 有 的 。 


例如 ， 为 了 缓存 一 些 数据 做 迭代 运算 ， 伺 c 组 发 生 非 常 频 或 的 读 
写 ,每 次 几 个 GB ( 量 比较 小 ， 至 少 内 存 能 够 承载 ，， 但 是 一 次 处 理 可 
能 要 读 写 数 百 次 ， 这 样 会 大 量 占 用 磁盘 IO0。 这 种 情况 下 ， 不 妨 按 试 在 
内 存 中 虚拟 或 者 划分 出 一 个 独立 的 空间 ， 以 供 做 IO 使 用 。 这 样 把 CPU 
和 磁 副 之 间 的 IO 转 化 成 为 CPU 和 内 存 之 间 的 IO， 这 种 效率 的 提升 可 能 
征 数 千 倍 的 。 


另外 ， 和 位 副 在 做 IO 的 过 程 中 ， 和 是 不 是 扫描 了 一 些 本 可 以 不 扫描 的 
BERR? 解决 这 种 问题 有 很 多 成 熟 的 办 法 。 


在 数据 仓库 里 使 用 列 式 存 储 ， 从 本 质 来 讲 也 是 用 这 种 方法 来 规避 
没 必 要 扫描 的 数据 块 被 扫描 。 表 分 区 (Table Partitioning) ^ 25| 
(Index) ， 这 两 种 技术 同样 是 为 了 解决 数据 查找 中 没 必要 扫描 的 数据 
块 被 访问 而 市 来 的 IO 效率 下 降 问 题 。 
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行 性 ， 基 本 就 是 这 样 一 种 思路 。 


171.4 思路 四 : 环节 层面 的 优化 


环节 层面 的 优化 是 一 个 边缘 化 的 问题 ， 因 为 这 个 层面 上 的 优化 通 
常会 涉及 硬件 资源 以 外 的 一 些 问题 一 一 换 句 话说 ， 这 一 类 问题 在 计算 
机 的 CPU、 内存 、 磁 盘 、 网 络 层 面 考虑 可 能 还 是 不 能 解决 的 。 


1. 虚 拟 机 邦 的 视 


笔者 几 年 前 在 菜 500 强 企业 的 IT 解决 方案 中 心 做 顾问 的 时 候 ， 曾 经 


遇 到 过 一 个 案例 。 


这 个 案例 从 技术 层面 来 说 束 是 一 个 ERP 系 统 页 面 请 求 速度 太 慢 的 
问题 ， 大 概 需要 2 到 3 秒 时 间 才 能 把 一 个 页 面 的 数据 完全 加 载 完毕 。 不 
管 2 到 3 秒 这 个 速度 是 不 是 够 快 ， 是 不 是 比 乎 时 访问 电 商 网 页 或 者 在 线 
论坛 的 速度 快 ， 对 于 一 个 对 效率 要 求 很 可 刻 的 500 强 企业 来 说 ， 这 是 一 
件 不 能 容 恕 的 事情 。 况 且 ， 页 面 所 访问 的 服务 右 也 是 DELL 提 供 的 很 
新 的 技术 方案 ，48 个 CPU 内 核 ，192GB 内 存 。 服 务 器 在 公司 内 网 ， 内 
网 市 宽 又 基本 都 是 1Gbps 的 光纤 到 楼 层 ， 楼 层 内 部 又 都 是 100Mbps 的 以 
太 网 。 所 以 从 这 个 层面 上 看 这 种 页 面 的 延迟 没有 道理 ， 而 其 他 项 目 组 
在 配置 基本 相当 的 服务 器 环境 和 终 剖 环境 ， 打 开 页 面 时 间 都 症 1 秒 以 
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但 是 很 快 就 发 现 了 问题 所 在 ， 这 个 ERP 系 统 的 页 面 是 使 用 
Silverlight 制 作 的 。Silverlight 是 微软 出 品 的 一 种 跨 服务 器 跨 平台 的 插 
件 ， 主 要 目的 是 解决 浏览 器 上 的 流 媒体 和 交互 丰富 性 的 问题 ， 基 本 可 
以 认为 是 Adobe Flash 的 类 代 者 。 然 而 这 种 技术 框架 有 一 个 天 生 的 问题 
就 是 慢 ， 因 为 它 调用 的 是 微软 .NET 虚 拟 机 的 资源 ， 而 虚拟 机 本 身 的 运 
行 机 制 就 是 一 种 多 层 间 接 调用 的 架构 ， 指 令 不 是 直接 下 达到 CPU 上 ， 
而 是 经 过 虚拟 机 ， 由 虚拟 机 调度 线程 再 发 送 到 CPU。 在 一 次 HTTP 请 求 
的 过 程 中 ， 有 几 百 个 指令 会 以 这 种 方式 传递 给 CPU， 延 迟 是 显而易见 
的 。 


了 最 后 为 了 赢得 这 1 秒 多 的 时 间 ， 不 得 不 推翻 了 整个 项 目的 以 构 部 
分 ， 采 用 HTML4+CSS2 的 方式 。 立 竿 见 影 ， 延 迟 瞬间 就 压缩 到 1 秒 以 
内 了 。 但 是 代价 是 牺牲 了 一 些 交 互 上 的 丰富 性 和 美观 性 ， 那 个 时 候 
HTML5 和 CSS3 还 不 成 熟 ， 还 不 能 作为 成 熟 的 技术 方案 ， 所 以 说 现在 
用 HIML5 和 CSS3 的 程序 员 们 真是 赶 上 好 时 候 了 。 


2.CDN 是 个 好 东西 


除了 刚刚 这 个 例子 以 外 ， 平 时 也 能 见 到 很 多 从 环节 层面 进行 优化 
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CDN 技 术 是 一 种 近 几 年 非常 火 的 技术 ， 全 称 是 Content Delivery 
Network， 内 容 分 发 网 络 。CDN 应 该 说 是 一 套 完整 的 网 络 加 速 解决 方 


案 ， 包 括 分 布 式 存储 、 负 载 均衡 、 网 络 请 求 的 重 定 向 和 内 容 管理 等 

个 技术 环节 部 分 。 对 于 用 户 在 网 页 上 请 求 图 片 加 载 慢 ， 或 者 文件 下 载 
慢 等 非 本 地 带宽 过 小 带 来 的 数据 下 载 问题 能 有 很 好 的 改善 作用 。 例 

如 ， 当 一 个 网 站 使 用 了 CDN 技 术 对 网 页 资源 进行 加 速 的 策略 开局 后 ， 
这 些 资源 就 会 通过 CDN 提 供 商 的 分 发 策略 分 发 到 很 多 的 缓存 服务 器 上 
去 。 当 用 户 进行 该 网 站 的 访问 时 ， 这 些 资源 引用 的 地 址 会 自动 指向 这 
个 离 得 最 * 近 ”， 访 问 最 快 的 缓存 服务 右 世 点 上 去 ， 这 样 瓯 能 使 资源 下 
载 加 速 了 


互联 网 是 一 个 非常 复杂 的 东西 ， 不 仅 是 拓扑 结构 复杂 ， 其 中 不 同 
的 交换 设备 有 大 不 同 的 交换 策略 ， 是 一 个 分 布 式 的 目 协 调 的 连通 系 
统 。 不 同 运 营 商 之 间 也 会 由 于 技术 性 的 或 者 非 技 术 性 的 问题 引发 跨 网 
AZEARI) 的 带 视 变 罕 问 题 。 为 了 解决 这 种 问题 ， 我 们 不 仅仅 会 用 
到 CDN 技 术 ， 还 需要 使 用 一 种 叫 BGP 双 线 /多 线 机 房 的 技术 来 进行 网 络 
加 速 


BGP (Border Gateway Protocol， 边 界 网 关 协 议 ) 是 一 种 在 TCP 协 
议 上 运行 的 自治 系统 之 间 动 态 交 换 路 由 信息 的 路 由 协议 。 启 用 BGP 技 
术 的 机 房 一 般 称 作 BGP 机 房 ， 服 务 器 租用 商 或 提供 商 通 过 技术 的 手 
段 ， 实 现 不 同 运营 商 能 共同 访问 一 个 IP， 并 且 不 同 运营 商 之 间 都 能 以 
最 快 的 速度 访问 这 个 IP 地 址 。 把 服务 器 放 在 BGP 机 房 给 用 户 带 来 的 好 
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17.1.5 “资源 不 足 


资源 不 足 的 情况 通常 比较 麻烦 ， 因 为 如 果 观 察 到 服务 器 上 的 
CPU、 人 磁盘 IO、 网 络 IO 都 非常 繁 性 ， 要 想 办 法 先 排除 是 业务 逻辑 上 设 
计 的 芷 漏 导 致 的 不 合理 或 者 意外 的 资源 请 求 太 多 ， 还 是 “ 真 的 ”资源 不 
人 够 。 如 果 是 由 于 一 些 芷 漏 导 致 的 资源 请 求 过 于 集中 ， 那 么 通过 debug 或 
者 优化 业务 逻辑 ， 还 是 能 够 获 解 的 。 但 是 如 果 不 是 这 些 问 题 ， 那 就 是 
资源 确实 比 客观 真实 的 需求 少 了 。 典 型 的 例子 就 是 ， 在 保存 日 志 的 情 
况 下 ， 业 务 要 求 无 损 永久 存档 ， 但 是 即便 在 启用 压缩 旦 不 留 见 余 的 情 
况 下 ， 还 是 很 快 把 磁 副 填 满 ， 那 就 是 典型 的 磁盘 资源 不 足 了 。 


总 之 ， 还 是 要 先 用 一 些 办 法 确定 资源 分 配 究 竞 是 不 足 还 是 不 合 
理 ， 再 用 “ 低 成 本 ”的 货源 换取 “高 成 本 ”的 资源 。 


质 源 的 可 用 
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稳定 性 是 压倒 一 切 的 。 在 服务 器 程序 开发 方面 ， 有 以 下 共识 
(1) 服务 器 快 比 服务 器 慢 要 好 。 (客户 体验 会 更 好 。) 


(2) 服务 器 慢 要 比 服务 器 宕 机 好 。 《客户 体验 不 好 ， 好 未 还 在 提 
供 服 务 ， 还 有 流量 进来 。) 


(3) 服务 器 宕 机 要 比 服务 器 损坏 了 好 。 (已 经 是 损失 了 ， 损 失 小 
点 吧 ， 尤 其 是 不 要 损坏 数据 。) 


如 果 在 服务 器 反应 慢 和 服务 器 宕 机 这 两 种 事件 中 一 定 要 做 一 个 这 
TE, 一般 都 会 选择 前 者 。 可 是 如 果 服 务 器 的 资源 不 足 怎么 办 ? 请 求 过 
多 ， 请 求 过 于 频 娄 ， 服 务 希 进行 过 规划 但 是 还 是 全 部 资源 都 用 认 ， 怎 
AD? 考虑 租用 云 服务 试 试看 。 


17.2.1 ”借助 云 服务 


如 采 资 源 占用 是 有 比较 规律 的 (周期 性 的 ， 而 且 峰 值 过 高 ， 这 
种 情况 下 是 比较 适合 租用 云 服务 的 。 在 峰值 到 来 时 使 用 云 服务 ， 在 峰 
值 过 去 后 ， 低 谷 时 退 订 云 服务 。 


在 使 用 云 服务 时 要 先 评 估 一 下 ， 对 比 一 下 使 用 云 服务 的 成 本 。 对 
比 的 时 候 要 对 比 两 种 方案 的 完整 成 本 ， 云 服务 的 成 本 吏 是 云 平台 的 收 
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宽 租 赁 等 ， 看 看 哪个 对 于 自己 来 说 更 划算 。 


17.2.2” 锁 分 散 


做 过 数据 库 开发 的 人 对 锁 (Lock) 一 定 不 陌生 。 


一 般 的 锁 都 是 指 互 不 锁 ， 也 就 是 说 系统 里 存在 这 样 一 种 资源 ，A 
用 户 在 占用 的 同时 ，B 用 户 征 不 能 占用 的 。 这 种 情形 在 日 常生 活 中 也 
征 随 处 可 见 ， 如 餐厅 里 的 座 椅 ， 一 个 用 户 在 使 用 时 其 他 用 户 束 不 能 使 
用 ， 直 到 这 个 用 户 离 开 ， 座 椅 不 再 使 用 了 才能 再 被 其 他 人 占用 。 


在 计算 机 系统 里 也 有 这 种 情况 ， 当 一 个 SQL 的 事务 正在 做 多 行 的 
数据 更 新 时 ， 通 前 会 锁 住 这 些 行 ， 其 他 的 线程 要 想 读 取 这 些 行 都 要 等 
待 ， 直 到 这 个 事务 释放 行 锁 。 在 一 个 系统 中 如 采 有 大 量 的 锁 资 源 也 会 
出 现 一 种 奇怪 的 现象 ， 束 是 看 上 去 似乎 CPU 和 磁盘 IO 都 还 远 没 有 达到 
上 限 ， 但 是 每 个 事务 请 求 却 慢 得 让 人 无 法 处 受 。 


锁 是 一 个 在 资源 上 保证 独立 性 的 工具 ， 没 有 它 很 多 事情 是 做 不 了 
HY ° 


例如 每 年 至 少 要 名 3 次 的 12306 (五 一 长 假 、 十 一 长 假 、 春 节 长 
假 ) ，12306 多 少 有 点 多 枉 。 本 来 火车 的 运载 能 力 有 限 ， 票 数 有 限 ， 这 
是 事实 。 火 车 上 的 座位 甚至 是 站 位 和 刚刚 说 的 餐厅 的 情况 是 一 样 的 ， 
一 个 人 占 了 另 一 个 人 吏 没 办 法 使 用 ， 这 些 占 与 不 占 的 情况 不 用 等 上 车 


之 后 去 看 ， 在 订 票 时 束 显 示 出 来 了 ， 所 以 可 以 想象 ， 在 抢 票 时 12306 的 
后 台 有 几 十 万 把 大 大 小 小 的 锁 时 开 时 合 ， 让 大 家 按照 锁 开 合 的 指示 等 
待 锁 换 源 的 释放 ， 当 锁 释 放 以 后 ， 如 有 人 天 了 票 但 是 没有 付款 票 被 重 
新 释放 ， 这 个 时 候 我 们 束 又 能 够 获得 这 把 锁 ， 由 我 们 锁 住 这 张 票 ， 然 
后 开始 付款 的 过 程 。 而 这 个 过 程 中 ， 别 的 任何 一 个 人 部 没 办 法 获得 我 
锁 住 的 这 张 票 。 


淘宝 的 交易 系统 与 12306 有 着 很 大 的 不 同 。12306 上 的 信息 完全 是 
一 对 一 的 互 不 资源 ， 必 须 在 全 国 范 围 内 的 全 局 进行 锁 互 不 和 和 争 抢 。 而 
淘宝 的 每 个 店铺 都 是 在 独立 提供 自己 的 货品 ， 甚 至 货品 的 表示 只 是 一 
个 数字 ， 而 非 具 体 的 每 个 不 可 替换 的 货品 。 那 么 这 些 货品 可 以 被 分 解 
到 几乎 任意 多 的 小 集群 小 系统 中 去 对 外 提供 服务 ， 再 辅 以 CDN 缓 存 技 
术 降 低 网 络 延 迟 ， 用 户 体验 目 然 要 比 12306 高 儿 个 档次 。 这 并 非 是 说 
12306 技 术 水 平 比 淘宝 差 太 多 ， 而 是 他 们 做 的 压根 就 不 是 一 样 的 事情 。 


17.2.3 ĦERBA 


如 果 硬 件 资 源 真 的 很 紧张 ， 既 没 办 法 做 锁 分 散 ， 也 没 办 法 通过 租 
用 云 服务 来 解决 。 还 有 一 个 方法 来 保证 在 服务 万 不 死 机 的 情况 下 对 外 
提供 服务 ， 那 瓯 是 让 用 户 排队 。 


排队 这 种 事情 司空 见 惯 ， 尤 其 有 古 在 吃饭 的 时 候 。 如 采 在 吃 午餐 或 
者 晚餐 的 时 候 到 各 大 商场 的 招牌 餐厅 去 看 看 束 知 道 了 ， 人 气 旺 的 店铺 
外 面 是 有 取 号 机 的 ， 没 有 取 号 机 的 店铺 也 会 有 两 个 漆 亮 妹子 招呼 拿 号 
排队 。 银 行 也 一 样 ， 银 行 是 比较 典型 的 “硬件 资源 不 足 ” 但 又 要 提供 服 


务 的 场景 ， 只 能 让 用 户 等 。 


在 网 络 服务 层面 也 有 排队 现象 吗 ? AW, REA AREE , 
有 的 体验 做 得 差 。 


排队 也 是 有 比较 成 熟 的 方案 的 ， 通 党 来 说 可 以 考虑 在 服务 器 和 济 
览 硕 两 侧 进行 配合 。 核 心思 路 如 下 。 


(1) 能 够 在 客户 端 Chl boas) 挡住 的 访问 坚决 不 要 放 到 服务 器 上 


例如 ， 可 以 用 JavaScript 代 码 来 进行 “ 封 堵 ”， 至 少 做 一 个 比较 好 的 
倒计时 提示 来 告诉 访问 者 前 面 还 有 多 少 人 ， 或 者 要 倒计时 等 多 久 才 能 


排队 等 到 位 。 


(2) 能 够 分 散 到 多 个 服务 器 上 进行 排队 提示 的 内 容 坚决 不 要 集中 
到 一 合 服务 硕 上 来 。 这 个 原则 和 负载 均衡 的 原则 是 没有 区 别 的 ， 我 们 
不 希 鹿 大 家 都 一 视 蜂 到 窗口 来 问 “还 差 多 少 人 到 我 *。 能够 用 大 广告 牌 
说 明 的 问题 束 写 在 大 广告 有 牌 上 ， 大 家 目 己 看 。 所 以 在 服务 器 上 也 可 以 
著 虚 用 类 似 的 方式 进行 分 散 性 的 广播 ， 而 不 要 集中 到 一 台 服 务 紫 去 做 
排队 询问 。 


17.2.4 D“ B8" 


在 不 少 介绍 调 优 和 架构 的 资料 里 会 提 到 这 样 一 个 词汇 * 雪 前 ”。“ 雪 
月” 是 一 种 自然 现象 ， 也 是 一 种 灾害 ， 通 常 发 生 在 常年 积 雪 的 山区 (图 
17-181) e 


图 17-1 雪崩 


由 于 声波 震动 或 者 地 这 活动 等 原因 ， 导 致 原来 履 交 在 山上 的 积 雪 
产生 一 些 内 应 力 上 的 变化 ， 使 得 它 开始 像 泥石流 那样 具备 一 定 的 流动 
性 ， 而 后 小 规模 的 流动 性 逐渐 引发 大 规模 的 流动 性 形成 灾害 。 也 束 是 
说 ,一 个 几 万 吨 重 甚 至 几 十 万 吨 重 的 雪 盖 形成 的 重力 势能 转化 为 动能 


的 破坏 性 可 能 最 开始 只 是 一 只 乌 在 山顶 上 落 了 一 下 ， 或 者 是 一 个 人 大 


在 系统 架构 中 提 到 的 雪 有 衣 和 这 个 现象 看 上 去 很 类 似 ， 就 古 由 于 一 
台 服 务 右 或 者 一 全 服务 闫 中 的 茶 个 模块 发 生 故 障 进而 引发 连锁 反应 ， 
最 后 导 任 大 量 的 服务 器 或 者 软件 模块 无 法 正常 工作 ， 这 种 现象 也 叫 
做 “急剧 变 坏 ”现象 。 例 如 ， 常 用 的 负载 均衡 型 的 集群 里 就 会 有 类 似 的 
现象 发 生 。 


假如 有 一 个 PHP 的 集群 ，10 个 节点 ， 前 端的 路 由 器 用 Round Robin 
(等 权 轮 询 ) 算法 为 后 面 10 台 PHP 转 发 HTTP 请 求 ， 当 每 台 服 务 器 都 达 
到 CPU 占用 80% 的 负载 时 ， 其 实 压力 已 经 接近 极限 了 。 此 时 如 果 有 一 
台 PHP 服 务 器 突然 停止 响应 ， 根 据 负载 均衡 协议 ， 这 个 节点 会 被 暂时 
移出 整个 负载 均衡 集群 ， 那 么 新 进来 的 负载 就 会 被 压 在 另外 9 台 服 务 器 
上 ， 粗 略 计算 一 下 ， 其 他 9 台 服 务 器 的 负载 大 约会 上 升 到 899%， 进 而 有 
更 大 概率 引发 其 他 服务 器 的 月 浇 ， 而 月 演 的 服务 器 再 被 移出 负载 均衡 
集群 .………. 后 面 的 事情 大 家 想 想 都 能 知道 ， 服 务 器 集群 朋 溃 得 越 来 越 
快 ， 直 到 整个 集群 完全 垮 掉 。 这 种 由 一 个 点 的 故障 引起 整个 系统 崩溃 
的 现象 就 叫做 雪 朋 现象 


要 想 防止 雪 朋 需要 做 好 以 下 几 件 事情 。 


(1) 对 服务 器 负载 的 估算 。 对 服务 器 的 负载 应 该 有 一 个 比较 合理 
的 估算 。 来 目前 端的 HTTP 请 求 或 者 其 他 形式 的 压力 都 可 以 通过 软件 来 
模拟 进行 压力 测试 ， 测 试 一 全 服务 絮 在 CPU 达 到 60% 左 右 时 的 负载 数 
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(2) 线 上 测试 估算 服务 器 数量 。 与 其 说 线 上 测试 ， 不 如 说 按 需 购 
买 。 在 把 服务 器 上 的 服务 释放 之 后 ， 会 有 用 户 正 党 的 负载 需求 从 互联 
网 上 流 进 来 ， 这 个 流量 是 有 着 周期 规律 波动 性 的 ， 如 在 一 天 内 有 规律 
的 波动 性 ， 在 一 周 内 有 规律 的 波动 性 。 这 些 峰 值 和 低谷 出 现在 什么 时 
间 ， 人 负载 分 别 为 多 少 ， 可 以 通过 对 单 台 服 务 器 的 CPU 以 及 网 络 连接 监 
挥 来 捕 提 到。 进而 可 以 推算 出 峰值 和 低 合 各 目 需 要 的 服务 器 数 量 一 一 
在 安排 资源 时 要 多 准备 一 些 。 


例如 ， 峰 值 时 如 果 计 算出 需要 2 人 台 服 务 器 ， 每 台 服 务 器 60% 的 负 
载 ， 其 实 这 时 服务 器 集群 是 没有 真正 “ 见 余 * 的 ， 因 为 一 旦 其 中 的 一 台 
服务 器 由 于 故障 停止 响应 立刻 会 引发 雪 月 ， 所 以 这 时 应 该 是 在 刚刚 的 
基础 上 加 一 台 服 务 器 更 为 保险 ， 即 一 共 3 台 服务 器 ， 每 台 服 务 器 40% 的 
CPU 负载 。 如 果 计 算出 需要 4 台 服 务 器 ， 每 台 服 务 器 60% 的 负载 ， 则 如 
AR BARA as AE, RBG ARS aA CPU I A US 71587 Bl 
80%， 但 是 应 该 远 没 有 第 一 种 情况 危险 。 


请 注意 ， 在 负载 均衡 的 集群 中 防止 委 甬 是 一 个 资源 和 风险 平衡 的 
过 程 。 选 好 这 个 平衡 点 就 能 在 保证 不 发 生 雪 崩 的 情况 下 资源 投入 最 


[1] 图 片 来 自 百 度 图 库 。 
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系统 架构 这 个 课题 是 一 个 辨证 使 用 技术 和 方法 论 保 证 服务 性 价 比 
的 事情 。 任 何 技术 、 任 何方 法 都 有 其 特点 和 局 限 性 ， 只 有 融会 贯通 地 
使 用 才能 在 架构 优选 中 获得 更 好 的 思路 和 解决 方案 。 


第 18 章 ”数据 解读 与 数据 的 价值 


本 章 是 杂谈 性 的 内 容 ， 是 基本 脱离 技术 内 容 以 外 的 一 些 延 展 性 的 
话题 讨论 。 阅 读 起 来 应 该 会 更 有 一 定 的 发 散 性 ， 也 会 更 觉得 轻松 一 
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在 前 几 章 里 已 经 介绍 过 关于 数字 化 运营 的 一 些 基 本 知识 了 ， 
做 好 下 面 几 步 ， 就 拥有 了 最 基本 的 运营 条 件 。 


(1) 数据 收集 。 
(2) 数据 存储 。 
(3) 数据 结构 化 建 模 。 
(4) 指标 体系 。 


不 需要 太 多 高 深 的 知识 ， 只 需要 认真 把 这 每 个 环节 都 做 好 ， 
公司 的 数字 化 运 悄 承 会 目 然 传承 迭代 并 帮助 公司 运营 目 如 。 


18.1 运营 指标 


指标 作为 独立 的 一 节 知 识 在 第 5 章 已 经 进行 过 讨论 了 。 


运 宫 指标 和 普通 的 指标 有 什么 区 别 呢 ?从 名 字 上 来 看 ， 运 营 指 标 
应 该 吓 指 标的 一 个 子 集 ， 也 就 古 说 有 部 分 指标 是 可 以 作为 运营 指标 来 
用 的 ， 有 一 部 分 则 不 适合 。 


运 宫 指标 ,顾名思义 ， 是 为 运营 直接 服务 的 指标 。 不 同行 业 的 运 
营 指 标 ， 无 论 是 关注 的 内 容 还 古 关 注 的 周期 其 实 是 不 一 样 的 。 


在 日 音 生 产 工 作 中 ， 利 用 运 间 指标 能 做 的 事情 主要 十 纵 同 和 横 回 
的 对 比 。 


纵向 ， 就 是 一 个 部 门 或 者 一 个 人 ， 对 不 同时 段 的 同一 指标 进行 对 
比 ， 以 判断 其 运行 状态 是 好 转 还 是 恶化 ， 是 进步 还 是 退步 ， 如 一 个 洁 
门 的 月 生产 产值 ， 同 比 增长 1000 万 元 ， 环 比 增长 200 万 元 。 这 职 是 纵 回 
比较 。 


横向 ， 束 是 指 部 门 和 部 门 之 间 ， 个 人 和 个 人 之 间 ， 尤 其 是 那些 职 
能 相同 的 部 门 和 职能 相同 的 人 之 间 的 对 比 ， 能 够 看 出 工作 效率 的 差异 
和 和 鳃 亏 的 多 码 。 例 如 ， 张 三 的 月 销售 额 为 100 万 元 ， 他 四 为 30 万 元 , E 


五 为 50 万 元 。 通 过 对 比 可 以 得 到 清晰 的 工作 能 力量 化 排名 ， 这 驶 是 典 
型 的 横 同比 较 。 

指标 体系 的 建立 和 对 比 对 于 企业 内 部 营造 一 种 积极 进取 的 气氛 是 
非常 重要 的 。 


18.1.1 互联 网 类 型 公司 第 用 指标 


下 面 举 儿 个 互联 网 类 型 的 公司 最 常用 的 指标 例 和 于。 
1. 搜 索 类 产品 


搜索 类 产品 大 多 是 一 些 搜索 引擎 网 站 ， 有 的 网 站 搜索 的 对 象 比 较 
宽 沁 ， 有 的 则 是 垂直 类 别 的 ， 如 只 供 搜索 各 种 新 闻 ， 或 者 只 供 搜索 各 
种 图 片 等 。 搜 索 类 产品 提供 的 服务 核心 是 一 个 或 儿 个 关键 词 到 一 些 链 
接 的 映射 ， 通 过 这 个 映射 可 以 迅速 用 关键 词 跳 转 到 目标 页 面 。 和 鳃 利 当 
然 束 是 靠 那 些 硕 望 购买 这 种 关键 词 对 目 己 页 面 有 高 命中 率 的 商家 了 。 
所 以 目 然 而 然 束 有 点 击 量 、 转 化 率 等 这 些 他 们 比较 关心 的 指标 了 。 


常用 指标 有 以 下 几 种 。 
日 点 击 数 (Page Views) : 每 天 网 站 点 击 数量 。 


每 月 独立 访问 量 (Monthly Uniques) : 在 没有 用 户 体系 的 搜索 类 
产品 里 一 般 是 指 独立 IP 的 访问 量 ，1 个 JP 访 问 1 次 和 10 次 都 算 1 个 独立 访 


点 击 付 费 链接 的 用 户 百 分 率 (Percentage of Users that Click a Paid 
Link) : 也 就 是 “转化 率 ”"， 表 示 列 在 用 户 面 前 付费 链接 里 有 多 少 比例 


的 链接 会 让 用 户 有 兴趣 点 击 。 一 般 搜索 类 网 站 这 个 值 都 比较 低 的 ， 有 
19%6 左 右 算是 比较 正常 。 


每 次 点 击 收入 (Revenue per Click) : 平均 每 次 点 击 的 收入 。 
2. 游 戏 类 产品 
游戏 类 产品 也 有 相应 的 一 些 指标 。 


每 日 /月 活跃 用 户 (Daily/Monthly Activated Users) : 也 就 是 俗称 
的 “日 活 ”* 和 “月 活 ”*”。 一 般 来 说 ， 游 戏 的 繁 采 程度 很 大 因素 来 自 于 活跃 
玩家 的 数量 。 日 活 /月 活 指标 不 只 在 游戏 类 产品 中 才 会 被 人 用 到 ， 很 多 
软件 产品 也 都 会 对 这 个 值 进行 统计 。 只 是 游戏 是 一 个 用 户 互 动 性 很 强 
的 产品 ， 它 的 繁 宋 程 度 与 这 个 值 关 联 太 密 切 ， 所 以 这 个 指标 才 被 看 得 
很 重要 e 


付费 用 户 转 化 率 (Conversion Rate to Paying User) : 付费 用 户 与 
注册 用 户 的 占 比 。 


平均 每 用 户 收入 (Average Revenue per User, ARPU) : 指 的 是 以 
月 或 者 年 为 单位 的 从 每 个 用 户 身 上 平均 收入 多 少 。 


18.1.2 ”注意 事项 


先 说 一 个 翡 观 的 观点 ， 也 十 很 多 数字 化 运 旧 中 数字 解读 者 容易 陷 
入 的 误区 一 一 指标 能 解释 一 切 。 但 是 事实 却 不 是 这 样 一 一 运 宫 # 
看 到 现象 ， 甚 至 可 以 说 对 现象 的 感知 及 其 灵敏 度 ， 但 是 它 永 远 不 能 目 
我 解释 原因 。 


uy 
= 
umb 
GG 


不 仅 是 这 样 ， 有 经 验 的 运营 人 员 可 以 通过 目 己 的 经 验 和 行业 知识 
对 原因 做 试探 性 的 推断 和 解释 ， 但 是 仍然 不 能 通过 指标 来 直接 并 准确 
解释 原因 。 它 只 是 一 个 仪表 ， 只 十 一 个 和 温度 计 、 体 检 报 告 并 无 二 致 
的 结果 告知 性 的 数字 化 表现 ， 而 非 原因 解释 性 的 。 


这 束 好 比 人 们 感觉 不 舒服 ， 去 医院 做 一 个 喘 体检 查 ， 检 查 结果 是 
家 炎 ， 那 胃炎 应 该 怎么 吃 药 是 有 成 熟 的 解决 办 法 的 ， 不 管 是 老 中医 开 
的 汤药 ， 还 是 西医 开 的 抗生素 ， 开 了 束 去 叶 ， 吃 了 殉 能 好 。 但 是 至 于 
征 怎 么 得 的 胃炎 ? 是 梭 饮 骏 食 导致 的 ， 和 是 侈 酒 过 度 引 起 的 ， 十 长 期 吃 
刺激 性 食物 引起 的 ， 还 是 由 其 他 原因 引起 的 细菌 性 感染 ? 这 个 在 报告 
里 未 必 能 看 出 来 ， 还 需要 进行 进一步 排查 。 


在 雪 驶 汽车 的 过 程 中 ， 看 到 油箱 表 下 降 较 快 也 只 是 看 到 一 个 现 
象 ， 当 它 下 降 到 红线 位 置 时 就 古 提 醒 我 们 应 该 去 加 油 了 。 至 于 为 什么 


下 降 快 ， 是 因为 刚刚 爬 坡 ， 油 门 给 得 过 大 ， 还 是 油箱 有 渗 漏 ? (EE 
征 没 办 法 做 解读 的 ， 只 能 根据 进一步 的 各 环 世 检修 进行 排查 。 


那 汽车 仪表 恒 的 场景 有 没有 “优化 ”的 手段 呢 ? 如 采 想 把 这 个 排查 
的 时 间 过 程 缩 短 ， 是 不 是 可 以 在 这 些 环 市 各 自 再 设立 一 个 指标 作为 众 
多 仪表 的 一 员 ， 如 “平均 坡度 仪 > 一 一 记录 刚刚 过 去 的 2 小 时 里 仆 坡 的 角 
度 平均 为 多 少 ; “平均 油门 ”一 一 记录 刚刚 过 去 的 2 小 时 里 油门 给 得 多 
大 ， 对 比 一 下 看 比 平时 大 还 是 小 。 如 采 这 两 个 指标 都 正常 ， 那 就 说 明 
十 有 八 九 是 油箱 有 渗 涯 了， 也 或 不 需要 排查 其 他 环 方 ， 直 接 检 查 油 箱 
和 油 路 。 飞 机 敬 驶 舱 的 仪表 盘 非 常 多 ， 你 以 为 是 飞机 制造 两 喜欢 页 酷 
还 是 飞行 员 自 己 有 密集 偏好 症 吗 ? 绝对 不 是 。 就 是 为 了 把 这 个 空 重 将 
近 280 吨 的 大 家 伙 每 个 关键 环节 的 实时 状态 都 展现 在 飞行 员 的 面前 ， 来 
保证 飞行 的 安全 进行 。 图 18-1 所 示 为 至 客 A380 的 要 驶 和 脸 仪 表盘 ， 够 复 
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图 18-1 空 客 A380 的 区 驶 舱 仪 表盘 


在 要 车 的 例子 里 , “优化 "是 加 引 喜 的 ， 其 实 原因 也 很 简单 ， 束 是 
说 说 “优化 ”十 不 是 真 的 够 优 。 这 个 事情 究竟 是 不 十 值 得 为 此 专 | ] 放 两 
个 仪表 在 车 上 ， 毕 葛 它 是 有 成 本 的 ， 而 且 仪 表盘 上 又 多 了 两 个 示 数 。 
这 也 是 在 指标 化 运营 中 一 直面 临 的 一 个 矛 慎 ， 指 标的 含义 、 指 标的 数 
量 设置 要 合理 ， 要 让 这 个 指标 的 维护 和 解读 的 成 本 与 它 的 作用 和 收益 


相称 。 这 一 点 请 读者 一 定 要 注意 。 


18.2 ” AB 测试 


AB 测 试 在 很 多 互联 网 产品 中 都 很 常用 ， 甚 至 有 很 多 老牌 的 软件 企 
业 也 从 这 种 方式 中 汲取 经 验 。 


AB 测 试 指 的 是 什么 呢 ? 


在 我 看 来 ，AB 测 试 是 一 种 评价 体系 的 核心 思想 。 大致 的 工作 流程 
如 下 ， 当 不 知道 一 种 产品 的 A 方 案 好 还 是 B 方 案 好 时 ， 或 者 两 种 设计 完 
全 不 同 的 产品 A 和 B 的 市 场 反应 如 何 时 ， 会 考虑 找 两 组 用 户 来 进行 测 
试 。 


如 设置 两 个 对 比 组 ，A 组 100 人 ，B 组 100 人 ， 给 A 组 产品 的 A 方 
案 ， 给 B 组 产品 的 B 方 案 ， 然 后 观测 各 种 反应 指标 。 最 后 得 出 一 种 相对 
客观 的 比 对 结论 。 这 如 是 AB 测 试 的 整体 思路 o 


AB 测 试 虽然 对 于 互联 网 产品 是 一 种 般 来 品 一 一 在 很 多 传统 行业 里 
早 就 已 经 开始 使 用 了 ， 而 且 近 几 年 也 未 渐 应 用 更 为 广泛 。 


传统 行业 里 有 了 哪些 地 方 用 了 AB 测 试 吗 ? 有 的 。 


例如 ， 药 品 的 临床 测试 ， 有 很 多 新 药 ， 要 测试 其 是 否 真 的 有 效 ， 
或 者 其 药 效 是 否 比 其 他 药 的 药 殖 好 ， 通 第 采用 的 方法 叫做 “随机 对 照 试 
验 ”(Randomized Controlled Trial, RCT) ， 也 就 是 将 病 患 分 为 两 组 ， 


然后 一 组 给 药 一 组 不 给 药 ， 如 果 是 对 比 两 种 药物 ， 那 就 是 一 组 给 待 测 
药 一 组 给 另 一 种 对 比 药物 ， 在 疗程 结束 后 对 比 治愈 率 。 为 了 避免 人 为 
情绪 化 因素 以 及 个 别 样 例 的 特殊 反应 对 测试 结果 的 影响 ， 又 进化 出 一 
种 叫做 “大 样本 随机 双 盲 试验 "的 办 法 ， 算 是 对 “随机 对 照 试验 "的 进 一 
步 科学 化 的 诠释 。 


两 者 的 不 同 点 在 于 : 


第 一 ， 大 样本 ， 样 本 量 加 大 稀释 个 别 样 例 特殊 反应 对 统计 结果 的 
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第 二 ， 双 盲 ， 束 是 让 病 患 和 医生 都 对 药品 和 分 发 对 象 事先 不 知 
晓 ， 让 所 有 人 都 在 这 个 被 他 人 安排 好 的 测试 旅程 中 一 步 一 步 进行 斌 
验 ， 直 到 最 后 再 去 对 比 测试 的 结果 。 这 样 就 避免 了 在 人 与 人 接触 的 过 
程 中 由 于 主观 情绪 掺 杂 在 交谈 里 引起 的 一 些 难 以 把 握 的 因素 。 例 如 ， 
医生 如 果 主 观 上 对 这 种 药 不 看 好 ， 或 者 主观 上 认为 这 种 药 效 采 不 错 ， 
在 交谈 的 过 程 中 或 多 或 少 会 有 情绪 上 对 病 患 的 暗示 ， 那 这 种 上 暗示 对 于 
治疗 配合 程度 的 影响 会 干扰 测试 结果 。 假 如 治疗 结果 好 ， 束 说 不 清 究 
况 是 药品 真 的 很 管用 ， 还 是 其 中 有 更 多 “安慰 剂 ” 1 中 的 成 分 。 


除 此 之 外 ， 国 内 在 推行 一 些 制 度 或 者 管理 办 法 时 也 都 有 “试点 企 
业 ”、“ 经 济 特区 ”的 一 些 局 部 区 别 性 的 制度 ， 目 的 就 是 为 了 看 这 种 AB 
测试 的 对 比 效 有 果 ， 效 果 好 了 就 推广 ， 效 果 不 好 蝶 个 掉 再 试 其 他 方法 。 


[1] 安奈 剂 : Placebo， 具 有 一 定 的 作用 ， 对 有 心理 因素 参与 控制 的 目 
主神 经 系统 功能 如 血压 、 心 率 、 胃 分 泌 、 呕 吐 、 性 功能 等 的 影响 较 
大 。 它 的 心理 影响 效应 对 病症 的 级 解 在 临床 上 已 经 得 到 了 相当 程度 认 
可 o 


18.2.1 网 页 测试 


在 互联 网 产品 的 开发 过 程 中 ，AB 测 试 的 使 用 也 是 非常 广泛 的 ， 尤 
其 古 在 拿 不 准 用 户 喜 好 的 时 候 。 


在 一 个 网 页 界面) 上 线 时 ， 再 好 的 经 验 也 没 办 法 判断 完 竟 这 一 
次 发 布 结果 如 何 ， 在 有 两 个 以 上 选择 时 也 会 面临 这 种 问题 。 那 或 不 如 
都 区 给 市 场 ， 让 市 场 的 反应 说 了 算 。 


例如 ， 要 做 一 个 网 站 (网 页 ， 不 确定 用 户 对 哪 一 个 更 喜欢 ， 那 
天 在 试 运 各 或 者 公测 时 让 访问 的 用 户 被 随机 分 配 到 一 种 方案 上 ， 如 采 
有 两 种 备 选 方案 ， 那 就 是 A 方 案 和 B 方 案 。 让 他 从 头 到 尾 都 使 用 这 一 种 
方案 风格 对 网 站 (网 页 ) 进行 访问 。 记 得 把 他 访问 的 路 径 记 录 下 来 。 
某 一 个 人 个 和 案 性 的 访问 路 径 、 访 问 时 间 、 点击 数 可 能 不 能 说 明 什 么 ， 
这 必须 看 宏观 统计 。 在 测试 一 个 网 站 的 过 程 中 要 至少 选 择 数 百 人 进行 
随机 分 派 ， 有 条 件 也 可 以 多 选 一 些 。 


但 是 为 了 保证 测试 不 是 由 于 提供 的 内 容 导致 用 户 的 好 恶 不同 而 只 
苹 由 于 表现 形式 不 同 的 ， 那 就 要 保证 对 A、B 两 组 人 只 提供 外 形 ( 样 
式 ) 差异 的 网 站 。 因 为 除了 网 站 外 形 的 不 同 以 外 ， 网 站 提供 的 内 容 、 
访问 产生 的 延迟 等 都 会 对 网 站 对 用 户 的 吸引 程度 有 影响 ， 这 个 因素 要 
尽 可 能 排除 在 外 。 


在 做 完 一 轮 测试 以 后 ， 周 期 是 目 己 设 定 的 ， 可 以 是 3 天 ， 也 可 以 是 
7 天 或 其 他 的 天 数 ， 如 采 基 本 能 够 保证 每 个 用 户 从 第 一 次 看 到 网 站 入 口 
开始 束 被 分 成 A、B 两 组 中 的 一 组 而 且 从 一 而 终 ， 那 束 可 以 看 看 以 下 指 
标 。 以 每 种 方案 为 观察 单位 。 


(1) 用 户 平均 一 次 访问 的 页 数 。 


(2) 用 户 平均 每 页 逗留 时 间 的 长 度 。 


(3) 用 户 再 访问 比例 。 


(4) N 天 留存 率 (回访 率 ) 。 


通过 这 些 比较 大 概 束 能 得 出 方案 名 优 强 劣 的 结论 了 了。 也 可 能 两 者 
差不多 ， 也 可 能 都 不 太 理想 但 钙 其 中 一 个 略 好 一 些 ， 但 是 这 时 已 经 能 
够 做 出 选择 了 。 


18.2.2 方案 测试 


如 琳 不 是 一 个 网 站 ， 而 是 某 一 个 产品 的 方案 呢 ? 还 能 这 么 位 单 地 
去 做 AB 测 试 吗 ? 其 实 也 是 可 以 的 ， 因 为 AB 测 试 不 是 一 个 具体 的 测试 工 
具 而 是 一 种 测试 的 思想 。 那 我 们 再 来 看 一 个 例子 。 


我 们 以 一 个 右 下 角 分 辩 率 为 300x200 像 素 的 升 窗 广告 位 产品 为 例 。 
如 果 你 是 这 个 广告 位 产品 的 产品 经 理 ， 你 需要 考虑 这 个 广告 位 如 何 安 
排版 面 的 问题 ， 至 少 有 以 下 两 种 选择 。 


其 一 ， 可 以 推送 一 幅 大 的 广告 。 占 满 整 个 小 广告 屏 ， 然 后 让 里 面 
的 4 个 广告 位 进行 2 秒 为 单位 的 滚动 。 如 图 18-21 所 示 为 一 个 6 幅 图 自动 
切换 的 样 例 ， 能 够 看 到 下 面 有 6 个 切换 按钮 ， 在 画面 深 动 切换 时 ， 如 果 
想 跳 转 到 其 他 编号 的 广告 画面 则 单 击 相应 按钮 进行 切换 。4 幅 广告 也 古 
同 理 ， 只 是 切换 按钮 只 有 4 个 。 
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图 18-2 ”6 幅 图 目 动 切换 


其 二 ， 可 以 推送 4 幅 小 的 广告 。 让 这 4 幅 小 的 广告 拼 起 来 占 满 整个 
小 广告 屏 。 如 图 18-3 1 所 示 为 一 个 9 幅 图 的 样 例 ， 版 式 为 3x*3， 也 有 4 幅 
图 的 ， 即 版 式 为 2x2。 


图 18-3” 9 幅 图 同时 显示 


在 用 户 触 发 了 这 次 广告 推送 的 事件 以 后 ， 广 告 后 侣 束 要 做 出 反 
应 ， 可 以 用 随机 的 方法 进行 1， 1 的 推送 ， 即 让 这 两 种 展示 方式 在 每 次 
请 求 中 的 几率 均等 ， 都 是 50%。 一 般 来 说 ， 这 基本 也 能 够 保证 足够 的 随 
机 性 了 。 


之 后 就 可 以 观察 究竟 由 哪 一 个 融 来 的 广告 点 击 转化 率 高 ， 是 第 一 
种 方式 容易 诱导 用 户 点 击 广告 位 还 是 第 二 种 方式 容易 诱导 用 户 点 击 广 
告 位 ， 这 通过 用 点 击 数 除 以 推送 数 束 能 够 得 出 来 ， 甚 至 用 不 了 一 天 下 
出 结果 ， 极 容易 验证 。 只 要 有 了 结果 ， 就 可 以 考虑 在 全 局 使 用 这 种 方 
案 了 ， 因 为 已 经 有 了 足够 的 且 确 实 的 理由 。 


在 做 互联 网 产品 时 于 万 不 要 犯 经 验 主 义 的 错误 ， 经 验 永 远 是 局 限 
的 ， 唯 一 不 变 的 东西 吏 是 变化 本 吴 。 像 这 种 广告 ， 在 没有 测 弃 之 前 不 
能 武断 地 认为 一 定 是 哪个 更 好 ， 因 为 两 种 方式 也 确实 各 有 优 缺 点 。 


第 一 种 大 广告 好 处 是 图 片 清晰 ， 内 容 可 以 更 丰富 ， 不 好 的 因素 是 
滚动， 滚动 就 意味 着 不 能 一 目 了 然 地 看 清 所 有 的 信息 。 第 二 种 广告 的 
好 处 是 一 目 了 然 ， 不 好 的 因素 是 可 用 的 分 辩 率 变 小 ， 文 字 和 图 片 的 展 
示 都 比 第 一 种 更 为 有 限 。 哪 种 转化 率 高 只 能 通过 比 对 结果 的 数据 来 说 
话 了 。 


扩展 一 下 这 个 话题 。 如 果 想 把 这 个 例子 做 到 极致 ， 还 可 以 尝试 对 
每 次 弹出 的 信息 做 分 类 。 区 分 一 下 素材 和 题材 ， 在 相同 的 素材 和 题材 
下 面 去 对 比 看 哪 一 种 转化 率 高 。 如 最 后 方案 AB 测 试 对 比 结果 可 能 如 表 
18-1 所 示 。 


表 18-1 AB 测 试 对 比 结 


方案 一 转化 率 (%) | 方案 二 转化 率 (%) 方案 一 转化 率 (%) | 方案 二 转化 率 (%) 


1.03 | 1.10 汽车 类 | 0.64 | 0.34 


1.42 


如 有 能 够 得 到 这 样 一 个 表格 ， 那 么 在 不 同 的 广告 投放 方案 被 触发 


时 是 可 以 采用 不 同 的 排版 策略 的 ， 这 样 会 比 “ 一 刀 切 ”的 排版 方式 提供 
更 大 的 全 局 转化 率 。 


其 他 维度 上 的 对 比 可 以 再 想 其 他 方式 ， 总 之 ， 有 了 AB 测 试 ， 基 本 
所 有 这 种 难以 琢磨 的 偏好 把 握 都 有 了 量化 对 比 的 手段 。 


[1] 图 片 来 源 于 和 示 东 商城 截图 。 
[2] 图 片 来 源 于 淘宝 网 截图 。 


18.2.3 KERT 


在 游戏 新 版 本 的 发 布 环节 中 有 一 个 名 词 叫 "“ 灰 度 发 布 ”。 这 个 词 很 
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那 “ 黑 >? 和“ 日? 分别 指 什么 呢 ? ASCH a DA DS ite IH 
本 ,“ 日 "和 是 新 版 本 ， 在 两 个 版 本 进行 更 友 时 殉 是 一 个 从 * 墨 ?到 “日 ”的 
过 程 。 


一 般 一 个 族 戏 的 客户 端 从 局 动 束 开始 检测 是 否 有 新 版 本 可 以 更 
新 ， 如 采 有 ， 它 藉 会 局 动 更 新 模块 开始 下 载 ， 并 把 这 些 文件 履 关 到 和 客 
户 端 游戏 的 程序 中 去 。 不 得 不 承认 ， 即 便 在 技术 积累 非常 好 的 公司 
里 ， 在 全 网 范围 内 做 更 新 都 是 一 件 很 有 风险 的 事情 ， 这 个 风险 很 大 程 
度 上 已 经 不 是 技术 层面 的 风险 了 一 一 即便 在 封 测 阶段 、 内 测 阶段 、 体 
服 公测 阶段 《在 体验 服务 器 上 进行 的 半 公 开 测试 ) 的 测试 都 能 通过 ， 
不 死机 、 不 内 退 、 不 卡 顿 ， 其 实 也 并 不 能 保证 在 全 网 更 新 后 游戏 论坛 
会 被 吐槽 的 人 民 和 群众 刷 屏 。 毕 竟 游 戏 版 本 中 的 对 错 不 是 以 技术 标准 来 
衡量 的 ， 更 多 的 是 玩家 情绪 的 反应 ， 而 情绪 这 个 东西 又 太 复 杂 ， 在 这 
些 测试 的 阶段 也 不 一 定 能 测 出 好 的 效 末 。 怎 么 办 ?“ 灰 度 发 布 "应 运 而 
Æ o 


用 策略 文件 进行 控制 ， 可 以 仅 对 全 网 环境 中 的 部 分 用 户 一 一 可 以 
征 59%0， 可 以 是 109%， 也 可 以 再 多 一 些 〈 但 是 这 些 数 量 级 比 封 测 和 体 服 
的 数量 级 还 是 大 多 了 ) 进行 更 新 ， 看 看 他 们 的 反应 。 这 些 反 应 有 的 会 
直接 体现 在 当天 的 DAU (日 活跃 用户 ) 上 ， 也 可 能 体现 在 下 面 接连 几 
天 的 DAU 上 ， 也 可 能 体现 在 其 他 指标 上 ， 也 有 可 能 会 更 直接 地 体现 在 
官网 论坛 上 或 者 客服 的 电话 里 。 


每 次 *“ 灰 度 发 布 " 都 是 一 个 决策 的 实验 而 已 ， 而 接 下 来 吏 是 两 种 选 
择 。 一 种 ， 反 啊 民 好 ， 继 续 更 新 到 全 网 范围 内 。 男 一 种 ， 反 啊 不 理 
想 ， 把 已 经 升级 的 客户 并 回 深 到 前 一 个 稳定 版 本 一 一 不 能 变 好 起 码 也 
要 保持 现状 。 


“ 灰 度 发 布 ?在 游戏 里 用 得 多 只 十 因为 游戏 的 版 本 更 迭 比 较 频 系 ， 
仅 此 而 已 ， 并 非 它 只 适合 于 游戏 软件 。 其 他 任何 的 可 以 通过 互联 网 进 
行 分 发 的 软件 产品 都 可 以 采用 这 种 思路 ， 甚 至 是 云端 用 网 页 来 实现 的 
软件 也 能 用 这 种 方式 进行 试探 性 的 用 户 反 馈 测试 。 思 路 束 是 这 样 ， 们 
单 吧 ? 


不 要 小 看 这 个 简单 的 东西 ， 用 得 好 会 让 产品 每 次 都 能 顺利 爬 台 
阶 ， 一 步 一 步 走 问 正确 的 方向 ， 这 比 求助 任何 行业 专家 都 要 成 本 低 而 
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18.24 注意 事项 


AB 测 试 虽然 好 用 ， 但 是 也 需要 注意 技巧 ， 尤 其 是 它 的 局 限 性 。 请 


务必 注意 ! 


AB 测 斌 测试 的 是 两 种 不 同 的 方案 ， 虽 然 能 够 比较 出 哪 一 种 效 采 更 
好 ， 然 而 方案 的 相 异 点 越 多 ， 越 无 法 定位 造成 影响 的 原因 。 


1. 量 化 比较 对 象 


在 对 比 的 过 程 中 尽 可 能 去 量化 比较 的 对 象 。 例 如 ， 在 网 站 外 形 的 
比较 中 ， 了 字体 大 小 的 磅 数 ， 显 示 窗 体 大 小 的 尺寸 ， 每 页 的 行 数 ， 如 果 
想 进 行 研 究 把 他 们 作为 对 比 的 对 象 的 话 ， 这 些 值 是 要 量化 的 。AB 测 试 
有 可 能 会 进行 多 轮 ， 多 轮 之 间 的 结果 对 比 要 形成 一 定 的 结论 性 的 东 
西 ， 也 就 是 要 试 出 一 个 经 验 值 (Magic Number) 或 者 一 个 知识 。 至 少 
下 一 次 再 做 同类 的 事情 不 需要 从 头 开始 斌 起， 而 如 采 要 试 ， 也 吏 是 试 
一 下 有 没有 比 这 个 已 知 的 最 好 值 更 好 的 值 。 这 对 于 “创新 即 生命 ”的 互 
联网 产品 是 极 有 意义 的 。 你 能 接受 所 有 的 运 宫 人 员 每 天 都 在 用 “大 一 
A”, AMARI, “不够 快 ” 这 种 感性 的 说 法 来 在 彼此 之 间 传 递 信 息 
吗 ? 如 果 不 能 ， 那 束 尽 量 做 到 量化 吧 。 


2. 时 一 化 


两 个 网 站 方案 ， 色 调 不 同 ， 文 字 大 小 不 同 ， 布 局 也 不 同 ， 每 一 页 
的 条 目 数量 不 同 ， 即 便 最 后 确实 能 比较 出 来 有 一 种 风格 更 容易 被 人 喜 
欢 。 但 是 ， 究 竟 是 由 哪 一 种 或 儿 种 因素 “引发 "了 这 种 偏好 的 表现 不 得 
而 知 。 


如 果 一 定 要 得 到 对 应 的 解释 ， 应 在 每 次 方案 比较 时 把 方 宁 之 则 不 
同 的 地 方 压缩 到 最 少 ， 如 只 有 一 个 方面 不 同 ， 其 他 的 都 相同 。 通 汕 这 
样 比较 出 来 的 结果 针对 性 会 非常 强 ， 对 形成 目 己 完善 的 产品 运营 和 演 
进 体 系 是 有 好 处 的 。 如 果 担 心 要 验证 的 方面 太 多 会 让 验证 周期 加 长 ， 
则 可 以 同时 开启 多 个 AB 测 试 的 对 照 组 ， 每 个 对 照 组 进行 独立 的 单一 属 
性 的 对 比 ， 这 样 也 能 够 在 一 定 程度 上 缩短 测试 的 周期 。 


3. 强 隔离 
AB 测 试 还 要 注意 一 个 问题 ， 也 就 是 测试 的 环境 应 该 是 一 种 强 隔离 


的 环境 ， 因 为 测试 对 象 内 部 与 外 界 如 果 联 系 过 多 会 直接 导致 测试 的 失 
败 或 者 根本 无 法 进行 。 


世界 上 很 多 国家 都 是 实行 夏 时 制 的 ， 如 澳大利亚 、 俄 罗斯 以 及 欧 
盟 各 国 。 


夏 时 制 指 的 是 一 种 为 节约 能 源 而 人 为 规定 地 方 时 间 的 制度 ， 在 这 
一 制度 实行 期 间 所 采用 的 统一 时 间 称 为 “夏令 时 间 ” 一 一 对 应 的 非 制度 
期 间 叫 做 “冬令 时 间 ”。 一般 在 天 腕 得 早 的 夏季 人 为 将 时 间 提 前 一 小 


时 ， 如 把 表 从 9: 00 拨 到 8: 00， 然 后 在 5 个 月 后 夏令 时 结束 的 时 候 再 把 
表 从 8: 00 拨 回 到 9: 00 而 且 生 全国 人民 都 这 么 做 ， 据 六 这 样 可 以 使 人 
早起 导 睡 ， 减 少 照明 量 ， 以 充分 利用 光照 资源 ， 从 而 节约 照明 用 电 。 


我 国 在 1935 年 到 1979 年 间 间 断 地 实行 过 若干 次 夏 时 制 ， 最 近 的 一 
次 是 1986 年 到 1991 年 ， 每 年 的 4 月 到 9 月 这 5 个 月 时 间 实 行 夏 时 制 。 最 后 
还 是 由 于 认为 这 种 制度 得 不 偿 失 而 取 消 掉 一 一 不 管 怎 么 说 ， 在 这 段 时 
间 里 ， 要 保证 所 有 的 计时 器 时 间 都 同步 变化 这 一 个 小 时 ， 学 校 上 课 、 
火车 载 客 、 医 院 就 诊 ， 机 构 的 时 钟 要 变 ， 人 的 时 钟 也 要 变 。 最 要 命 的 
是 不 少 人 要 为 这 1 个 小 时 花 一 两 周 来 倒 时 差 。 所 以 权衡 利 浆 ， 在 1991 年 
以 后 我 国 再 也 没有 做 过 夏 时 制 的 调整 。 


按说 这 种 全 国 性 的 新 制度 政策 应 该 就 像 经 济 特区 或 者 试点 城市 一 
样 做 一 个 试点 性 的 测试 ， 但 是 就 是 真 的 有 人 想 做 娩 怕 实行 者 也 会 说 “不 
管 是 城 里 还 是 乡下 这 东西 都 不 会 玩 ”。 这 些 试点 城市 和 外 界 的 一 切 联系 
都 古 要 靠 时 间 来 进行 同步 的 ， 尤 其 是 在 国内 这 么 频繁 互动 的 环境 ， 这 
个 地 区 和 其 他 地 区 的 交通 时 刻 表 要 做 一 个 1 小 时 的 兰 值 变换 ， 电 视 世 目 
转播 要 做 1 小 时 的 佐 值 变换 ， 娩 介 连 打 个 电话 都 要 将 这 边 是 儿 点 那 边 是 
几 点 反复 强调 ， 这 些 同 样 是 巨大 的 成 本 。 


4. 其 他 不 民 后 果 


如 果 要 对 产品 用 户 做 大 礼包 赠送 这 种 活动 ， 可 是 不 知道 送 什么 细 
下 内 容 组 合 让 用 户 更 有 和 猪 着 性 或 更 满意 。 这 种 情况 也 是 可 以 考虑 使 用 
AB 测 试 的 。 


准备 两 种 不 同 内 容 的 礼包 ， 然 后 让 用 户 自己 选 ， 记 得 做 好 登记 工 
作 以 及 事后 持续 不 断 的 数据 反馈 工作 ， 这 样 较为 受 帖 。 
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让 用 户 收 到 目 己 不 满意 的 礼包 而 其 实 明 明 有 另外 一 种 礼包 可 能 更 适合 
他 却 没有 派送 给 他 。 这 种 情况 如 琳 被 用 户 知道 ， 轻 则 背地 里 吐槽 说 运 
膏 人 员 脑 子 进 水 ， 重 则 会 引发 用 尸 集体 性 指 袖 而 去 。 反 正 哪 一 种 都 不 
苹 原 先 派 发 礼包 的 目的 。 而 且 在 大 量 的 目 主 选择 的 过 程 中 也 能 看 出 一 
REA Ta EEN IA] ^ 
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择 的 情况 下 ， 也 会 引起 用 户 对 公司 厚 此 薄 彼 策略 的 猜测 ， 如 果 公 关 部 
门 不 能 很 好 地 处 理 可 能 有 引发 一 些 群 体 事 件 。 


18.3 ”数据 可 视 化 


数据 可 视 化 是 一 个 一 直 以 来 部 被 数据 运 膏 人 员 重 视 的 问题 。 做 好 
数据 可 视 化， 关键 有 以 下 两 点 。 


我 在 大 学 单 业 毕 业 不 久 的 时 候 ， 由 于 对 职场 工作 感觉 心里 没 底 ， 
曾经 问 过 一 个 世界 500 强 的 大 型 化 妆 品 跨国 公司 的 大 中 华 区 总 经 理 一 一 
好 在 他 是 我 表姐 夫 ， 不 收 咨询 费 。 我 问 他 , “LIP GABE, REE 
么 做 比较 好 ? ”他 只 说 了 几 句 话 ， 让 我 当时 也 是 茅 塞 顿 开 ， 虽然 当时 十 
确实 “不 明和 觉 厉 ”的 感觉 ， 但 今天 回想 起 来 感觉 这 真 的 是 精华 中 的 精 


华 。 


第 一 ， 一 切 工作 尽量 目标 化 和 数字 化 。 这 个 其 实说 的 束 是 指标 运 
营 的 问题 ， 束 算是 公司 没有 指标 ， 目 己 对 目 己 有 指标 的 要 求 也 会 让 人 
有 激励 目 己 进步 的 能 


第 二 ， 陈 述 简 党 化 。 能 用 图 的 不 要 用 表格 ， 能 用 表格 的 不 要 用 条 
目 ， 能 用 条 目的 不 要 用 段落 。 这 个 其 实说 的 是 可 视 化 的 问题 。 


18.3.1 图表 


在 运 划 中 对 可 视 化 的 重视 不 是 因为 我 们 要 赶 时 暑 ， 喜 欢 喊 口号 ， 
而 是 人 自身 对 外 界 信息 认 知 本 身 束 有 的 敏感 而 有 的 迟钝 。 很 多 东西 与 
生 俱 来 ， 要 让 说 教 使 得 每 个 人 克服 这 种 迟钝 的 难度 很 大 ， 不 如 从 人 认 
知 特点 的 角度 进行 弥补 ， 这 才 是 可 视 化 被 重视 的 根源 一 一 也 就 是 以 人 


言 息 越 少 ， 人 的 注意 力 越 容易 集中 ， 反 之 ,信息 越 多 ， 人 的 注意 
力 越 不 容易 集中 。 这 才 是 在 报表 上 应 该 着 力 注意 的 问题 。 


人 们 对 图 的 敏感 度 是 比较 高 的 ， 对 形状 和 颜色 的 敏感 度 也 比较 
° 所 以 在 数据 可 视 化 中 多 采用 柱状 图 、 折 线 图 、 散 点 图 、 饼 图 、 雷 


柱状 图 如 图 18-4 H Aras o 


折线 图 如 图 18-5 '^! Brzn » 


柱状 图 和 折线 图 主要 是 用 来 观察 变化 趋势 的 。 


散 点 图 如 图 18-6 ^! 所 示 。 
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散 点 图 是 用 来 观察 分 布 密度 的 。 示 例 中 的 散 点 图 看 上 去 像 是 做 回 
归 用 的 ， 而 平常 多 见 的 艇 点 图 通 前 是 没有 用 直线 去 穿 点 的 过 程 隐 。 


饼 图 如 图 18-7 员 所 示 。 


某 站 点 用 户 访问 来 源 


直接 访问 
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um 视频 广告 
ma) 205 | 


邮件 营销 


搜索 引擎 联盟 广告 


视频 广告 


图 18-7 HA 


饼 图 是 用 来 观察 比例 关系 的 。 


热力 图 如 图 18-85 所 示 。 
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图 18-8 ”热力 图 


热力 图 是 用 来 观察 连续 维度 下 的 “热度 ”变化 的 ， 
FE] 2 


雷达 图 如 图 18-9 所 示 。 


古 一 种 特殊 的 获 
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测试 能 力 


基础 理论 
图 18-9 雷达 图 


雷达 图 是 用 来 表示 单个 对 象 多 维度 (属性 ) 分 布 均衡 度 的 。 


富 的 图 表 内 容 ， 也 有 一 些 是 这 些 基本 图 形 图 表 的 
变种 ， 但 古 能 够 掌握 这 些 束 已 经 能 够 在 平时 的 数据 挖掘 和 运营 中 解决 
绝 大 部 分 问题 了 。 


[1] 引用 自 echarts.baidu.com 网 站 示例 。 
[2] 引用 自 echarts.baidu.com 网 站 示例 。 
[3] 引用 自 echarts.baidu.com 网 站 示例 。 


[4] 8| FH Becharts.baidu.com 网 站 示例 。 
[5] 5| H Becharts.baidu.com 网 站 示例 。 


18.3.2 ”表格 


有 的 数据 内 容 维度 多 ， 超 过 2 维 的 向 量 数据 已 不 能 在 A4 纸 上 打印 ， 
而 超过 3 维 的 向 量 数 据 在 计算 机 显示 器 上 也 很 难 表示 出 来 。 这 种 高 维度 
的 数据 不 方便 用 图 形 表示 ， 所 以 只 能 退 而 求 其 次 用 表格 来 表示 。 


表格 的 好 处 是 内 容 丰 富 而 且 行 列 规整 、 横 平 坚 直 ， 古 一 种 非常 好 
的 结构 化 数据 标本 。 然 而 即便 是 这 样 领导 们 也 是 不 喜欢 看 表格 的 ， 数 
字 天 然 就 没有 颜色 和 形状 对 人 的 视觉 刺激 感 好 。 好 在 一 般 都 是 数据 科 
学 家 面 对 大 量 的 多 维 数据 分 析 ， 分 析 成 低 维 度数 据 交 给 决策 层 时 已 经 
可 以 用 视觉 冲击 展 好 的 图 表 来 表现 了 ， 例 如 ， 图 18-10 Arash) AER 
格 。 


x |z005/11/28; 0 | 本 科 | 总 经 理 
2008/3/1 | € | 本 科 | MEZE | 2500 | 
2009/3/1 | o | S| Wem 200 00 ol 3 0 | 26 
2003/4/3 | 44 | METH | 2000 
20L0/3/3 | 33 | 大 | 软件 开发 2000 00 

i i t i 

i 
EC OOS AUK SC — 
2011/6/7 | 18 | 大 专 | 软件 开发 | 2000 


| F | | | 

X | 2012A/1 | 会 计 a | 1 | | | 
2012/12/18; 0 | 
. | 


300 oi oœ 0| 1858 |24644 | 2 


图 18-10 “二 维 表格 
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或 者 一 个 表格 之 后 做 补充 说 明 。 
段落 化 的 陈述 最 不 提倡 ， 因 为 人 们 从 这 种 非 结 构 化 的 陈述 中 提取 


信息 是 时 间 成 本 最 高 的 。 


[1] 图 乒 来 源 于 百度 图 库 。 


18.4 多 维度 一 一 大 数据 的 灵魂 


18.41 多 大 算 大 


“大 数据 ”这 个 词 本 身 具有 莫大 的 误导 性 ， 再 加 上 行业 里 动力 宣传 
和 鼓吹 Google、Facebook 的 机 房 有 多 大 ， 存 量 有 多 大 ， 残 更 容易 让 人 
们 认为 ， 必 须 数 据 量 超 级 大 才 算 大 数据 入 了 1]， 才 算 “ 大 ”数据 。 认 为 
数据 很 多 才 算 大 才 有 价值 ， 就 好 比 饭 越 多 越 好 吃 ， 首 乐 声 首 越 大 才 越 
好 昕 一样 经 不 起 推敲 。 


KAGAN BNF ett AVE? 尤其 是 作为 商业 用 途 来 说 ， 无 非 
征 为 了 多 赚钱 或 者 多 省 钱 ， 不 论 是 直接 的 还 是 间接 的 。 一 旦 脱离 开 这 
些 ， 谁 来 买单 ， 谁 来 背 成 本 ? 大 数据 价值 就 成 了 伪 命 题 。 


Google 和 Facebook 这 样 的 公司 做 大 规模 系统 的 目的 也 不 是 为 了 炫 

， 而 是 他 们 确实 数据 量 膨胀 到 一 定 程度 了 ， 不 得 不 使 用 一 些 平 时 应 
用 场景 里 不 多 见 的 技术 ， 所 以 “这 些 技术 一 定 是 大 数据 的 必 备 条 件 ” 避 
目 然 变 成 了 误导 人 们 的 信息 。 作 为 挑 成 尖端 科技 和 中 国 这 种 人 口 基数 
的 互联 网 公司 的 客观 需求 ， 俩 完 超 大 规模 织 构 集群 技术 是 一 个 方 癌 而 
且 绝 对 正确 ， 但 不 建议 中 小 型 公司 邯郸 学 步 。 


Ho} 


中 小 型 公司 需要 大 数据 吗 ? 答案 是 肯定 的 ， 不 仅 需 要 ， 而 且 非 常 
需要 。 中 小 型 公司 要 用 大 数据 做 什么 ? 这 种 需求 多 少年 来 一 直 没 有 变 
过 ， 还 古 刚刚 说 的 要 么 多 赚钱 要 么 多 省 钱 。 多 赚钱 多 省 钱 的 途径 在 数 
据 运 宫 中 最 常见 的 就 古 指标 管理 ， 再 有 就 古 诸如 财务 分 析 、 人 力 成 本 
} 析 、 工 作 效 率 及 成 果 分 析 等 。 这 些 东 西 在 日 常生 产生 活 中 占 了 绝 大 


cle 


多 数 的 数据 应 用 场景 。 对 这 些 对 象 研究 明白 了 就 已 经 能 解决 大 部 分 运 
营 问 题 了 。 


如 果 还 想 做 得 深入 一 些 怎么 办 ? 再 把 参考 维度 的 数据 增多 就 可 以 
了 ， 如 刚刚 这 些 数据 指标 是 否 和 气候 变化 有 关 ? 是 否 和 地 理 位 置 有 
K? 是 否 和 大 气 污染 程度 有 关 ? 是 否 跟 当前 热 播 的 电视 剧 有 关 ? 是 否 
跟 短 时 间 内 网 上 的 一 个 热 词 有 关 ? 是 否 跟 交 通 状 况 有 关 ? 是 否 跟 人 们 
使 用 的 上 网 设备 有 关 等 。 这 些 数据 的 引入 不 需要 做 得 非常 多 ， 只 要 相 
互 结合 有 效 且 丰 是 适 度 ， 束 可 以 挖 据 。 甚 至 指标 自身 前 后 是 否 彼 此 有 
影响 规律 ， 也 是 一 个 值得 研究 的 课题 。 


18.4.2 ”大 数据 网 络 


大 数据 很 重要 ， 尤 其 是 从 国家 战略 的 高 度 来 看 这 个 问题 就 更 是 如 
此 。 国 家 要 做 决策 需要 很 多 事实 作为 依据 ， 尤 其 需要 大 量 的 数据 作为 
参考 。 数 据 的 获取 有 很 多 途径 ， 而 成 本 最 高 的 也 许 莫 过 于 派出 专门 的 
调查 小 组 去 做 访谈 和 总 结 了 
长 ， 人 工 成 本 高 ， 协 调 工 作 难 度 大 。 其 实 根本 没有 必要 派出 很 多 调查 
小 组 去 调查 能 从 大 数据 网 络 中 得 到 的 信息 ， 正 所 谓 “ 一 叶 知 秋 ”[1。 


从 广泛 部 署 的 物 联 网 来 看 ， 很 多 以 前 不 可 想象 的 问题 到 现在 已 经 
逐步 得 到 了 解决 。 


想 知道 一 个 地 区 每 采 程 度 如 何 ? 最 简单 的 束 看 用 电 和 用 水 就 可 以 
了 ， 市 有 远程 抄 表 功 能 的 智能 电表 、 水 表 可 以 进行 实时 数据 归 集 ， 每 
天 都 能 看 到 数字 的 变化 。 做 做 同比 、 环 比 就 知道 这 个 地 区 的 电 句 和 人 
口 活路 程度 有 没有 变化 ， 不 管 是 第 竹 的 还 是 流动 的 ， 而 且 还 能 区 分 是 
民用 水 电 的 增加 还 是 工业 水 电 的 增加 。 


想 知道 一 个 地 区 交通 状况 如 何 ? 看 看 那些 高 速 公 路 和 国道 、 省 道 
上 的 测速 摄像 头 记 录 束 能 知道 。 什 么 时 间 ， 车 流通 过 多 
何 ， 残 能 够 从 一 定 程 度 反 映 出 交通 的 情况 ， 是 人 迹 寥寥 还 是 车 水 马 


龙 ， 是 风 驰 电 刘 还 是 拥堵 不 堪 。 如 果 做 路 段 改 造 ， 成 果 也 能 从 这 些 数 
据 里 直接 得 到 体现 ， 而 且 都 是 立竿见影 。 


想 知道 一 个 地 区 的 水 文 信息 、 气 候 信息 ， 也 没 问 题 ， 传 感 网 络 可 
以 表 及 到 每 个 人 迹 罕 至 的 地 方 ， 不 管 古 江河 湖 海 还 是 沙 注 沼泽 ， 无 人 
值守 的 传 感 絮 可 以 为 人 们 代劳 数据 收集 和 上 报 的 工作 。 


总 而 言 之 ， 这 些 原本 需要 大 量化 费 人 力 物 力 才能 进行 收集 和 统计 
的 数据 ， 做 起 来 已 经 越 来 越 轻松 一 一 在 这 背后 古 大 数据 中 心 的 功劳 。 
这 样 的 工作 量 在 大 数据 时 代 到 来 之 前 是 根本 没 办 法 想象 的 。 


一 个 一 个 独立 的 大 数据 中 心 能 够 在 某 一 个 分 领域 或 者 一 个 地 区 做 
到 数据 收集 ， 数 据 存 储 ， 数 据 分 析 ， 但 这 还 不 是 数据 的 终极 价值 。 因 
为 人 类 社会 客观 上 来 说 是 广泛 联系 的 ， 这 种 联系 既然 存在 于 人 与 人 、 
人 与 物 、 物 与 物 之 间 ， 那 必定 能 够 体现 于 广泛 联系 的 数据 之 中 。 因 
此 ， 一 个 孤立 的 大 数据 中 心 建 得 再 好 也 是 无 法 从 割裂 的 数据 去 诠释 全 
局 的 数据 全 貌 的 。 如 果 想 要 了 解 这 种 广泛 的 联系 ， 那 必定 会 产生 广泛 
的 数据 交换 的 需求 ， 这 束 是 大 数据 网 络 一 一 由 大 数据 中 心 彼此 连接 形 
成 的 数据 交换 网 络 。 


[1] 《淮南 子 :说 山 训 》: DL RS OEE e 


18.4.3 ”去 中 心 化 才能 活路 


大 数据 中 心 之 间 之 所 以 会 形成 网 络 ， 不 是 因为 有 人 以 强制 手段 命 
令 它 成 为 这 种 样子 ， 同 样 是 目 然 形 成 的 一 一 以 目 然 形成 的 东西 其 背后 
的 力量 就 是 目 然 (这 里 的 目 然 不 是 说 的 山川 湖泊 花 乌 鱼 虫 的 这 种 保护 
自然 环 境 的 自然 ) 的 力量 ， 自 然 的 力量 远 比 人 类 的 力量 滚 涛 与 不 可 逆 
Fg o 


人 类 在 世界 各 地 的 大 陆 和 岛屿 上 广泛 分 散 存 在 而 不 是 集中 存在 ， 
即便 十 集中 素 居 在 城市 之 中 ， 城 市 的 规模 也 是 有 限 的 ， 要 想 在 更 大 规 
模 内 形成 交互 和 协作 ， 城 市 和 城市 之 间 束 要 建立 联系 。 容 易 让 肉眼 看 
到 的 东西 如 高 速 公 路 、 电 话 线 绕 、 光 纤 网 络 、 飞 机 航线 等 ， 这 些 都 是 
联系 的 方式 。 城 市 本 和 映 是 拥有 脱 胀 和 雪 缩 的 目 然 动力 的 ， 城 市 的 边界 
扩展 和 著 缩 说 到 实质 还 是 由 于 资源 ， 也 就 古人 口 和 支持 人 口 的 一 切 生 
存 必需 物质 钙 否 支持 其 膨胀 。 当 城市 脱 胀 到 一 定 程 度 时 必然 会 引发 极 
多 的 “大 城市 病 ”， 如 就 医 难 、 上 学 难 、 出 行 难 .…… 说 来 说 去 还 都 是 资 
源 分 配 不 足 的 问题 ， 这 些 问题 势 作 对 城市 扩张 形成 阻碍 。 


大 数据 产业 的 发 展会 遇 到 完全 一 样 的 问题 ， 数 据 资 源 的 集中 必然 
会 市 来 交换 速度 加 快 、 备 份 方便 、 计 算 方便 等 多 种 便利 ， 而 同时 也 会 
提高 大 数据 中 心 建 设 的 难度 。 人 工 成 本 、 电 力 成 本 、 管 理 成 本 、 灾 备 
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资源 越 集中 对 于 资源 调度 的 难度 其 实 束 越 大 ， 这 个 和 人 类 本 里 的 认 知 
和 掌控 能 力 有 关 。 


大 数据 产业 里 任何 一 个 环 市 的 发 展 思 路 都 应 该 以 去 中 心 化 为 原 
则 ， 而 不 应 直 奔 “大 而 全 ”的 目标 。 这 个 原理 束 像 做 这 样 的 选择 一 样 : 
征 在 中 国 建立 一 个 大 城市 还 是 儿 百 个 分 散 的 小 城市 ， 是 建立 一 个 特别 
大 的 超市 还 是 奉 干 个 分 散 的 小 超市 ， 征 建 一 个 特别 大 的 办 事 处 还 是 分 
散 的 小 办 事 处 。 哪 种 更 有 好 的 操作 性 ， 哪 种 更 容易 帮助 次 源 得 到 合理 
分 配 ， 哪 种 方式 殉 应 该 是 首选 。 


去 掉 中 心 的 本 身 不 是 目的 ， 去 掉 中 心 是 为 了 发 展 更 为 迅速 。 为 此 
同样 还 要 让 各 个 分 散 的 大 数据 中 心 以 及 各 个 生产 环节 建立 连接 ， 尤 其 
征 帮 助 数据 在 逻辑 层面 建立 连接 ， 让 它们 的 维度 扩展 和 丰富 起 来 。 


18.4.4 数据 会 过 剩 吗 


数据 作为 一 种 产品 ， 它 的 生产 会 过 剩 吗 ? 先 说 说 商品 为 什么 会 过 
RIÉ © 


从 书本 上 学 到 的 商品 过 剩 的 概念 也 好 ， 还 是 在 平时 的 生活 中 磁 到 
的 商品 过 多 而 产生 的 大 甩卖 也 好 ， 是 一 种 供 大 于 求 的 现象 。 换 句 话 
说 ， 生 产 了 大 量 的 超过 市 场 消化 能 力 的 产品 ， 束 是 过 剩 。 


过 剩 很 可 但。 粮食 生产 过 剩 ， 粮 贱 伤 农 ， 农 民 知 不 堪 言 ， 成 衣 生 
产 过 剩 ， 也 就 只 能 低 价 甩卖 ， 甚 至 是 没有 最 低 只 有 更 低 一 一 我 国 在 20 
世纪 80 年 代 初 到 90 年 代 中 后 期 在 全 国 各 地 持续 的 “ 限 产 压 狂 ” 的 过 程 中 
ERE T ARMEER EA KELA TR RI, EM 
也 是 并 转 关 集 。 


想 想 看 ， 数 据 会 不 会 有 一 天 生产 过 剩 ， 以 至 于 大 家 都 廉价 去 售卖 
数据 甚至 不 要 钱 让 别人 来 用 目 己 的 数据 呢 ? 


即便 是 在 有 知识 产权 保护 的 前 担 下 ， 有 一 点 也 是 可 以 肯定 的 ， 那 
束 定 同 质 的 数据 是 有 可 能 “过 剩 " 的 。 如 采 大 家 都 售卖 的 是 完全 一 样 的 
数据 ， 连 质量 也 完全 一 样 ， 那 么 这 种 数据 必然 会 产生 供过于求 的 情况 
一 一 两 个 完全 一 样 的 物品 〈 服 务 ) 那 就 只 能 比 谁 更 便宜 。 这 种 情况 
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征 大 数据 产业 核心 的 意义 所 在 。 


但 是 数据 的 生产 有 一 个 天 然 的 上 限 ， 可 以 说 出 这 个 上 限 在 哪里 ， 
但 古 怎 么 也 不 可 能 措 到 它 ， 这 个 上 限 束 是 “世界 乃至 宇宙 发 生 所 有 行为 
综合 的 客观 描述 ”。 


世界 上 的 万 事 万 物 都 是 运动 的 ， 每 一 刻 ， 每 一 个 行为 都 是 可 以 进 
行 量化 的 客观 记录 的 ， 这 些 记录 将 形成 一 个 无 穷 大 的 数据 样本 空间 ， 
连 维度 都 是 无 穷 大 的 ， 大 到 无 法 记 隶 全貌。 现在 这 一 刻 虽 然 意识 到 大 
数据 世界 的 重要 ， 但 是 仅仅 是 在 整个 大 数据 空间 的 奇 点 上 ， 真 正 的 大 
数据 市 场 还 远 远 没有 开始 ， 还 有 大 量 的 数据 根本 没有 记录 甚至 有 很 多 
有 价值 的 数据 还 没 被 人 们 认识 到 是 数据 。 


这 些 还 没 被 认识 到 的 数据 同样 会 受到 供需 的 影响 ， 缓 组 地 、 逐 步 
地 纳入 人 类 的 数据 研究 视线 ， 这 只 是 时 间 和 性 价 比 的 问题 而 已 。 所 以 
从 这 个 角度 来 说 ， 数 据 的 生产 会 过 剩 吗 ? 应 该 说 ， 不 会 ， 而 且 永 远 不 


会 。 


18.5 ”数据 变现 的 场景 
最 后 来 说 说 数据 变现 的 问题 e 


我 们 的 信息 本 吴 吏 是 一 种 财产 ， 我 们 的 手机 号 、 年 龄 、 身 份 证 
号 、 职 业 、 年 收入 水 平 、 购 房 与 否 、 购 车 与 否 、 婚 否 、 育 人 否 .…... 这 些 
信息 已 经 很 丰富 了 。 这 些 信息 已 经 能 够 让 那些 商家 愿意 化 一 大 笔 
购 买 ， 然 后 按 图 索 经 ， 找 到 “高 需求 用 户 ”， 推 销 各 种 “ 噩 需 求 产 品 ”。 
这 些 商家 目 然 是 获得 了 好 处 ， 但 是 人 们 的 隐私 却 被 旱 犯 了 。 原 因 无 非 
征 菜 些 机 构 在 登记 了 人 们 的 信息 以 后 转手 卖 给 了 这 些 商 家 ， 这 古 一 种 
表现 最 为 赤裸 的 数据 变现 。 


XE 
zt 


BAE, RAISES Nett Aue? 应 该 是 为 了 帮助 他 改 
进 业 务 。 为 什么 能 够 帮助 他 改进 业务 呢 ? 因为 他 一 旦 有 了 这 些 数 据 殉 

不 需要 大 海 捞 针 式 地 再 去 逐个 给 所 有 手机 号 打 电 话 了 ， 市 约 时 间 ， 
节约 人 力 成 本 ， 这 才 是 他 愿意 为 这 些 数 据 买 单 的 最 根本 的 原因 。 有 些 
数据 你 可 能 日 给 他 他 都 没 兴趣 ， 因 为 拿 着 没 用 ， 不 能 赚钱 也 不 能 省 
PR ° 


我 们 把 例子 举 透彻 一 些 吧 。 


如 果 这 种 骚扰 电话 使 用 大 海 捞 针 的 方式 ， 假 设 需 要 打 10000 通 才能 
成 区 1 笔 ， 被 加 9999 次 。 那 么 在 获取 了 这 份 名 单 之 后 ， 也 许 只 需要 拨打 


1000 通 就 能 成 交 1 笔 ， 被 驾 999 次 ， 产 能 提高 90%“。 如 果 加 之 有 人 预先 

对 用 户 做 过 画像 ， 进 一 步 进行 了 转化 率 的 优化 筛 碍 ， 也 许 只 需要 拨打 

100 通 就 能 成 交 1 笔 ， 被 加 99 次 。 同 样 是 成 交 1 笔 ， 产 能 提高 了 99%。 换 
而 言 之 ,假设 原来 要 雇佣 100 个 人 来 打 这 10000 通 电话 ， 现 在 只 需要 雇 

用 1 个 人 就 够 了 。 那 99 个 人 就 是 节约 下 来 的 人 力 ， 就 是 用 蒸汽 机 驱动 的 
纺 纱 机 代替 纺织 女工 的 过 程 。 


18.5.1 ”数据 价值 的 衡量 的 讨论 


1. 交 换 价值 

前 面 反 复 提 人 a 到， 大 数据 产业 的 价值 在 于 “洞悉 世界 ”一 一 消除 不 人 确 
定 ， 变 不 定 为 肯定 。 在 这 个 消除 不 确定 的 过 程 中 ， 大 数据 解放 了 大 量 
的 生产 力 ， 这 是 大 数据 产业 从 经 济 学 和 社会 学 层面 体现 出 来 的 意义 。 


说 到 这 里 ， 可 以 考虑 笑 试 着用 公式 性 的 方式 接 述 一 下 数据 的 价 
值 。 


在 《资本 论 》 里 有 这 样 的 论述 ， 马 殉 思 说 : “作为 价值 ， 一 切 商 品 
都 只 是 一 定量 的 凝固 的 劳动 时 间 1 趾 。” 随 着 市 场 经 济 的 逐步 繁 末 ，《 资 
本 论 》 的 论述 或 许 会 有 有些 单 纯 ， 或 者 有 一 定 的 局 限 性 。 那 么 就 按照 市 
场 经 济 的 观 后 来 做 一 个 调整 性 的 解释 一 一 商品 真实 的 成 交 价 十 一 个 更 
容易 侯 人 认可 的 价值 体现 。 


数据 如 来 要 变现 ， 目 然 有 成 交 价 ， 这 个 成 交 价 束 是 数据 目 映 的 “ 交 
换 价值 ”。 还 是 用 《资本 论 》 里 熟悉 的 名 词 来 类 比 。 一 个 人 为 了 了 解 和 
请 除 不 确定 性 购买 数据 ， 而 为 此 付出 金钱 代价 ， 这 个 成 区 价 就 古 它 的 
交换 价值 。 即 便 数据 一 样 ， 成 交 价 也 可 能 因 人 而 异 ， 这 束 像 平时 在 市 
场 上 看 到 的 现象 那样 ， 一 样 的 工业 品 ， 如 键 副 、 岂 标 、U 强 这 些 最 常见 
的 东西 ， 即 便 是 完全 没有 差异 的 鼠标 ， 也 会 由 于 当时 的 供需 造成 价格 


的 波动 ， 那 这 个 时 刻 的 交换 价值 实际 也 是 在 波动 的 ， 这 种 现象 同样 存 
在 于 数据 交易 中 。 


2. 作 用 价值 


数据 的 获取 为 人 们 消除 不 确定 性 。 那 么 通过 其 他 途径 消除 这 种 不 
确定 性 的 成 本 束 是 数据 为 人 们 礁 代 下 来 的 ， 殊 古 数据 发 挥 的 作用 ， 所 
以 “通过 其 他 途径 消除 这 种 不 确定 性 的 成 本 ”应 该 被 称 为 这 片 数 据 的 作 
用 价值 一 一 这 更 像 症 一 种 成 本 售 算 。 如 琳 没 有 数据 会 坚 么 样 ? 目 己 杀 
目 去 做 访谈 了 解 ， 听 新 闻 ， 查 看 各 种 其 他 方面 的 资料 ， 这 是 要 消耗 大 
量 成 本 的 。 但 是 ， 即 便 在 没有 任何 途径 消除 这 种 不 确定 性 的 时 候 ， 作 
用 价值 应 该 也 不 会 无 穷 大 ， 因 为 根据 目 己 经 给、 推测 等 手段 ， 还 是 会 
对 这 个 竺 了 解 的 数据 的 “真实 值 ? 有 一 个 “逼近 ”的 过 程 。 所 以 作用 价值 几 
乎 永远 是 一 个 有 限 值 。 


3. 使 用 价值 


而 用 什么 来 类 比 数据 的 “使 用 价值 ?" 呢 ? 可 以 用 获取 了 这 些 数据 后 
所 消除 的 不 确定 性 的 大 小 来 衡量 ， 也 束 是 用 数据 的 信息 炳 来 衡量 。 使 
用 价值 永远 是 小 于 等 于 作用 价值 的 。 


4. 场 景 价值 


而 到 了 这 一 步 ， 还 需要 有 一 种 概念 出 现 ， 束 是 “场景 价值 ”一 一 在 
相同 的 信息 炳 的 情况 下 ， 在 不 同 场景 里 数据 的 “场景 价值 ”是 不 同 的 ; 
甚至 完全 相同 的 数据 在 不 同 的 场景 下 也 是 有 不 同 的 “场景 价值 ”的 。 这 
个 场景 价值 应 该 是 信息 在 场景 中 市 来 的 收益 ， 这 个 收 荔 束 是 两 种 状态 
的 成 本 差异 ， 就 拿 刚 才 的 那个 骚扰 电话 的 场景 来 看 ， 买 一 个 普通 的 画 
像 清 单 ， 能 够 减少 90% 的 人 工 投 入 ， 那 么 减 去 的 90% 的 人 工 成 本 用 具体 
金钱 衡量 出 来 的 数字 束 是 场景 价值 ;天 一 个 优化 过 的 画像 清单 ， 能 够 
减少 99% 的 人 工 投 入 ， 那 么 减 去 的 99% 的 人 工 成 本 用 具体 金钱 衡量 出 来 
的 数字 就 是 场景 价值 。 


可 以 认为 ， 如 果 要 让 数据 交易 成 为 一 个 产业 ， 必 须 使 得 : 


场景 价值 > 作用 价值 > 使 用 价值 > 交换 价值 


如 琳 数 据 的 场景 价值 大 于 交换 价值 ， 数 据 的 买卖 束 会 成 区 ， 这 个 
价值 之 夸 越 大 成 交 的 可 能 性 越 大 ， 而 这 类 数据 整 具 有 升值 空间 。 


日 常 其 他 商品 交易 的 场景 里 也 有 类 似 的 场景 ， 一 个 地 方 的 房价 现 
在 是 5000 元 一 平方 米 ， 周 边 相 对 还 比较 荡 凉 ， 去 购物 ， 去 看 病 ， 去 上 
学 ， 在 这 里 生活 附加 的 成 本 尤其 是 时 间 成 本 还 相当 高 ， 所 以 这 个 5000 
元 一 平方 米 基 本 只 有 一 个 居住 价值 。 但 是 根据 规划 ， 以 后 5 年 这 里 周边 
会 陆续 新 建 地 铁 、 购 物 中心 、 中 小 学 校 、 三 甲 医院 。 这 些 附加 的 成 本 
会 随 着 这 些 设 施 的 建立 逐渐 降低 ， 而 转移 到 楼 盘 的 价格 上 去 ， 这 个 价 


AB EG, GRAY EPR De T R87; EE be PEAY FR] Jit BE URE 
JN SL Rsk A$ —— E18 e EMEA AER BER © ARRA. 
再 上 涨 已 经 没有 意义 ， 即 便 喊 价 上 涨 ， 但 是 买 家 已 经 能 够 在 其 他 比 这 
个 地 方 低 价 的 地 区 伦 更 少 的 钱 买 到 同 质 的 资源 ， 那 这 个 喊 价 十 有 八 九 
不 成 区 ， 就 是 所 谓 的 有 价 无 市 。 


数据 的 场景 价值 也 古 这 样 ， 由 于 数据 里 缠 含 的 信息 对 场景 中 消除 
不 确定 性 有 帮助 ， 进 而 市 来 的 收益 惑 是 数据 的 价值 ， 那 惑 相 当 于 二 一 
种 投资 。 投 资 回报 高 束 会 吸引 人 ， 反 之 回报 低 殊 不 吸引 人 。 这 个 回报 
ea PEU ri RA a MEL, CE ee EN FR AC HR ME AY ZEE 
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DARM ° 


5. 示 例 分 析 


刚才 有 一 个 问题 没 说 完 ， 束 是 关于 “使 用 价值 ”的 问题 。 这 应 该 十 
一 个 数据 中 强 含 信息 所 发 挥 价值 的 度量 问题 。 


在 平时 生产 生活 中 ， 人 们 的 行为 实际 是 已 经 计 入 了 先 验 概率 的 。 
而 使 用 数据 中 的 信息 这 种 行为 ， 实 际 古 在 享受 其 信息 量 获 得 的 增益 。 
在 平时 的 生产 生活 中 ， 即 便 在 没有 购买 任何 数据 的 情况 下 ， 也 会 根据 
当前 具有 的 认 知 、 经 验 、 推 理 、 猜 测 ， 使 用 所 有 人 能 用 的 手段 来 消炎 不 
确定 性 。 这 个 时 候 必 然 不 是 像 无 头 敬 蝇 一 样 盲目 去 试 ， 穷 举 地 去 试 ， 
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情况 。 而 根据 很 多 辅助 性 的 信息 或 者 其 他 的 数据 信息 已 经 能 够 在 购买 
或 阅读 一 片 数 据 之 前 拥有 了 一 定 的 消除 不 确定 性 的 能 力 ， 这 个 其 实 骂 
苹 先 验 概率 发 挥 的 作用 。 而 在 购买 或 阅读 了 数据 之 后 ， 进 一 步 消除 了 
不 确定 性 ， 这 其 实 是 一 个 和 概率 有 关 的 事情 ， 很 容易 联想 到 信息 量 或 
KAS: 


H (x) = A p(x,)log, P(x,) (i71, 


Z; ten) 
i=l 
TET AE AAMAR BY EL REA DA PASA: 
Hy) = DA p(x,)log, P(x,) G=1, 2, en) 


i=l 


其 中 m 是 信 源 数量 。 


在 m 个 信 源 是 等 概率 的 情况 下 ，H (x) 的 最 大 值 为 1， 也 就 是 
100%。 可 以 认为 这 种 情况 下 数据 的 使 用 发 挥 了 巨大 的 价值 ， 前 面 同样 
也 计算 过 信 在 先 验 概率 分 布 极 不 平衡 时 是 比较 小 的 。 信 息 信 在 这 种 情 
况 下 取 值 在 0~1 之 间 。 

不 妨 把 数据 使 用 价值 定义 为 


使 用 价值 = (作用 价值 -交换 价值 ) xt RU 


从 定性 分 析 的 角度 来 看 ， 作 用 价值 越 大 ， 交 换 价值 越 小 ， 那 么 数 
据 使 用 价值 束 越 大 ， 而 在 信息 烂 越 大 的 情况 下 ， 这 个 数据 的 使 用 价值 
越 不 打折 扣 ， 反 之 数据 的 使 用 价值 环比 较 小 。 如 琳 作 用 价值 和 交换 价 
值 很 贴近 ， 那 数据 使 用 价值 的 至 间 束 非常 有 限 了 ， 这 种 时 候 即 便 信 息 
ABl CRATE) ， 这 种 数据 发 挥 的 作用 也 就 越 小 ， 因 为 与 穷 举 试 错 的 
成 本 快 差不多 了 。 


例如 ， 张 三 准备 在 一 个 城市 开 一 个 小 卖 店 ， 但 是 卖 什么 没 拿 准 。 
他 在 多 方 了 解 下 ， 想 了 以 下 4 种 方案 。 


方案 1: 在 A 街区 B 店 面 开 一 个 煎饼 店 。 
方案 2: 在 C 街 区 DD 店面 开 一 个 茶 和 餐厅 。 
方案 3: 在 C 街 区 DD 店面 开 一 个 便利 店 。 
方案 4: 开 一 个 专营 咖啡 机 和 咖啡 豆 的 网 店 。 


这 4 种 方案 看 起 来 几乎 差不多 ， 如 果 上 自己 要 去 各 个 街区 进行 调查 ， 
包括 网 络 调查 人 流量 、 客 户 性 别 比 例 、 年 龄 比例 、 日 均 消 费 等 数据 ， 
一 个 人 花费 的 人 工 成 本 、 交 通 、 饮 食 都 加 在 一 起 需要 40000 元 。 而 有 专 
业 的 公司 拥有 大 数据 咨询 报告 系统 ， 可 以 提供 完备 的 信息 ， 而 购买 这 
种 报告 仅 需 5000 元 一 份 。 那 么 张 三 完全 可 以 花 5000 元 来 购买 这 份 报 
告 ， 这 个 5000 元 就 是 交换 价值 ，40000 元 就 是 作用 价值 。 这 4 个 方案 如 


果 没 有 明显 的 彼此 之 间 的 差异 ， 张 三 原本 选择 每 个 方案 的 概率 都 是 
1/4, PARRA ITE, fe BNUE 
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H(x)- -> p(x,)log,, P(x) =| ; Jos, +| l Jes, + 
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数据 的 使 用 价值 就 是 : (40000-5000) x1=350007 ° 
再 举 一 个 例子 。 


假如 有 这 么 一 个 场景 ， 某 公司 制定 第 二 年 的 产品 策略 和 销售 计 
划 ， 随 后 几 个 主管 提出 了 3 种 不 同 的 方案 。 而 且 3 种 方案 听 起 来 都 比较 
有 道理 但 是 缺乏 足够 的 数据 依据 ， 经 过 大 家 充分 讨论 ， 权 衡 利 弊 ， 在 
决策 层 的 领导 内 进行 了 文 持 表决 。 同 意 选 择 方案 1 的 有 70% 的 人 人， 同意 
选择 方案 2 的 有 20% 的 人 ， 同 意 选择 方案 3 的 有 10% 的 人 。 可 以 粗略 理 
fF: 其 中 有 70% 的 人 可 能 会 选择 方案 1，20% 的 人 可 能 会 选择 方案 2， 
10% 的 人 可 能 会 选择 方案 3。 这 时 候 需要 数据 对 决策 做 出 文 持 。 假 设 自 
己 进行 调查 研究 需要 花费 的 总 成 本 为 100 万 ， 从 拥有 大 数据 咨询 报告 系 
统 的 公司 购买 了 相应 的 数据 ， 花 费 20 万 ， 做 出 了 最 终 决 策 ， 选 择 了 方 
案 3。 最 终 公 司 第 二 年 销售 收益 为 1000 万 。 


在 这 个 例子 里 面 ，20 万 为 交换 价值 ， 作 用 价值 应 该 是 100 万 ， 场 景 
价值 是 80 万 ， 数 据 的 价值 边界 应 该 划 在 消除 信息 不 确定 的 成 本 上 ， 而 
不 是 间接 收益 。 男 外 ， 可 能 比较 有 和 争议 的 地 方 古 在 选择 了 文 持 度 最 低 
的 方案 3 上 ， 表 面 上 看 上 去 ， 数 据 的 购 入 文 持 了 最 不 可 能 胜出 的 方案 


3， 所 以 这 次 胜出 很 大 程度 应 该 归功 于 这 一 片 数 据 的 价值 ， 应 该 用 这 个 
1000 万 做 基数 来 进行 衡量 。 我 的 看 法 是 ， 这 是 对 数据 价值 的 全 大， 也 
是 不 客观 的 一 种 表现 。 因 为 这 1000 万 真 的 不 是 因为 花 了 20 万 就 直接 得 
到 的 ， 而 实际 的 过 程 是 ， 仅 仅 花 了 20 万 ， 完 成 了 一 个 100 万 的 成 本 才能 
做 的 事情 ， 在 决策 后 进而 通过 一 系列 其 他 的 努力 和 配合 ， 最 终 达 成 了 
1000 万 的 价值 。 边界 的 划分 很 重要 。 或 许 还 有 一 个 疑问 ， 融 是 3 种 方案 
中 ， 数 据 的 帮助 使 得 这 个 10% 文 持 度 的 方案 胜出 ， 而 非 最 大 文 持 度 的 
709% 的 方案 胜出 ， 所 以 有 两 种 情况 可 能 会 被 认为 是 不 同 的 ， 那 束 是 用 户 
选择 了 709%6 文 持 度 的 方案 1 和 10% 文 持 度 的 方案 3， 这 两 种 情况 下 数据 的 
使 用 价值 肯定 是 不 一 样 的 。 但 是 ， 决 策 实际 上 是 在 了 解 了 信息 之 后 做 
出 的 ， 换 句 话 说 ， 如 果真 的 花 了 100 万 的 人 工 成 本 去 做 了 这 次 同 质 的 分 
析 ， 应 该 会 得 到 跟 购 天 这 次 数据 一 样 的 结果 ， 买 数据 化 了 20 万 。 这 里 
数据 的 价值 只 是 两 种 获得 途径 的 比较 ， 也 就 是 大 数据 市 场 边界 的 划 


分 。 


最 后 试 着 把 事情 做 到 极致 一 一 试 算 一 下 在 刚才 的 骚扰 电话 的 例子 
里 ， 从 10000 条 数据 中 锁定 100 条 数据 ， 市 来 的 交换 价值 有 多 大 呢 ? 这 
个 场景 很 特殊 ， 因 为 打 这 10000 通 电话 本 身 就 是 一 个 消除 不 确定 性 的 过 
程 ， 等 于 是 消除 不 确定 性 和 生产 融 为 一 体 的 ， 在 这 种 情况 下 ， 数 据 的 
场景 价值 和 作用 价值 几乎 快 等 价 了 。 


假设 平均 一 次 通话 时 间 需 要 3 分 钟 ， 包 括 接听 、 通 话 、 挂 机 ， 包 括 
成 交 和 被 加 的 不 同 场 景 。 那么 一 小 时 可 以 通话 20 通 ， 一 天 8 小 时 通话 
160 通 。10000 通 电话 需要 一 个 人 62.5 个 工作 日 才能 完成 ， 大 约 3 个 人 1 个 
月 的 时 间 。 假 设 话务员 的 人 工 成 本 为 4000 元 一 个 月 ， 那 就 需要 12000 元 
的 成 本 ， 这 个 就 是 作用 价值 。 用 网 上 找到 的 一 条 报道 来 试 着 给 数据 定 
个 售 价 , “信用 卡 客 户 信息 遭 泄 : 网 购 价 2 分 一 条 ， 金 卡 持 卡 人 信息 可 
售 5 元 。 多 位 信息 贩子 ' 均 表示 ， 根 据 个 人 信息 品质 :的 不 同 ， 价 格 也 分 
为 三 六 九 等 '， 最 新 信用 卡 开户 数据 按照 0.5 元 一 条 出 售 ; 二 手数 据 可 
以 便宜 到 0.35 元 每 条 ; 部 分 高 端 客 户 如 金 卡 、 白 金 卡 持 卡 人 信息 每 条 售 
价 则 高 达 5 元 站。” 假 设 1 条 0.5 元 ， 在 花费 了 50 元 购买 了 100 条 电话 记录 
后 ， 仅 需要 1 个 人 0.6 天 的 时 间 ， 也 就 是 大 约 190 元 的 成 本 ， 就 能 完成 原 
来 12000 元 成 本 才能 做 完 的 事情 。 由 于 这 种 场景 下 的 作用 价值 巨大 ,使 
用 价值 和 场景 价值 都 巨大， 所 以 在 这 个 场景 下 数据 交易 才 会 大 行 其 
道 ， 屡 禁 不 止 。 


除了 这 些 未 来 会 很 有 市 场 的 例子 外 ， 还 有 哪些 钙 现 阶段 束 可 以 开 
始 发 挥 价值 的 数据 呢 ? 


[1] 来 源 于 《资本 论 》 第 一 着， 第 53 页 。 
[2] 来 源 于 《每 日 经 济 新 闻 》。 


18.5.2 X E1: 征 信 数 据 


征 信 数 据 这 个 东西 其 实 还 是 很 敏感 的 ， 很 多 人 认为 这 个 是 隐私 。 


隐私 应 该 说 是 一 种 文明 进步 的 产物 ， 但 是 也 确实 是 一 把 及 其 锋利 
的 双 刃 剑 。 先 看 这 样 一 则 报道 。 


“日 前 ， 稀 里 糊涂 染 上 了 艾滋 病 的 河南 小 伙 小 新 成 了 和 与 论 关注 的 焦 
上 态 。 去 年 3 月 ， 他 和 女友 小 叶 筹 备 婚 事 ， 两 人 在 民政 局 办 理 婚姻 登记 当 
天 ， 前 往 永 城市 妇幼 保健 院 进 行 婚检 。 检 查 报告 很 快 出 来 了 ， 但 医生 
单独 叫 住 了 女友 小 叶 。 小 叶 再 次 做 完了 检查 后 ， 小 新 得 到 医生 的 答复 
征 ， 一 切 正常 。 婚 检 后 小 新 也 没 再 多 想 什 么 ， 融 与 麦子 小 时 同 了 房 。 
一 个 月 后 ， 小 新 前 往外 地 打工 ， 然 而 6 月 初 ， 小 叶 接 到 永 城市 疾 控 中 心 
打 来 的 电话 ， 称 她 已 经 确诊 为 HIV 了 阳性。 丈夫 小 新 这 才 知 道 ， 当 时 小 
叶 被 医生 叫 住 是 因为 被 查 出 疑似 HIV 阳 性 。 不 幸 的 是 ， 小 新 随后 也 被 


查 出 感染 了 艾滋 病毒 。 


令 小 新 不 解 的 是 ，3 月 份 婚检 时 ， 小 时 已 经 碍 出 疑似 感染 浆 滋 病 
毒 ， 为 什么 医院 当时 不 把 这 个 结果 告知 目 己 ， 导 致 悲剧 无 法 挽回 ? 在 
痛 百 中 择 扎 了 一 段 时 间 后 ， 小 新 从 法 院 拿 到 一 份 当初 婚检 时 的 检验 报 
告 ,并 辣 法 院 提 起 了 诉讼 ， 要 求 进行 婚检 的 妇幼 保健 院 承 担 责任 。 
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了 悲剧 的 发 生 。 而 妇幼 保健 院 对 此 的 解释 是 ， 按 照 我 国有 关 法 律 ， 医 
疗 机 构 及 其 医务 人 员 应 当 对 患者 的 隐私 保密 。 婚 检 机 构 认 为 ， 目 己 只 
有 权利 告诉 检查 者 小 叶 本 人 ， 疝 小 新 坦白 应 该 是 小 时 自己 的 责任 品 


这 则 报道 的 场景 和 征 信 几乎 是 完全 一 样 。 一 方 是 一 个 人 的 隐私 ， 
另 一 方 是 对 他 人 产生 和 危害 的 可 能 性 。 这 两 者 确实 应 该 加 以 权衡 ， 而 不 
能 一 股 脑 地 规定 要 彻底 保护 一 切 隐 私 ， 或 者 说 所 有 的 隐私 必须 完全 公 


MH 


征 信 问 题 是 人 类 文明 城市 化 到 了 一 定 程度 必然 引发 的 问题 ， 这 种 
问题 在 祖 祖 奉 幸 一 直 居 住 的 农村 几乎 是 没有 葵 念 的 。 一 个 人 家 境 如 
何 ， 品 行 如 何 ， 在 一 个 居住 了 几 十 年 的 只 有 一 千 多 口 人 甚至 更 少 的 小 
山村 里 那 几 乎 是 尽 人 宵 知 ， 在 这 样 一 个 小 的 社会 环境 里 ， 人 和 人 之 间 
的 距离 非 肖 近 。 早 上 发 生 的 事情 ， 可 能 中 午 就 传 得 全 村 人 部 知 道 ， 彼 
此 了 解 的 程度 如 此 之 深 ， 那 所 有 小 范围 内 的 风险 问题 都 能 目 行 解决 了 
不 确定 程度 很 低 。 


但 生 城 市 截然 不 同 ， 大 家 来 目 天 南海 北 五 滑 四 海 ， 有 很 多 人 在 高 
楼 大 厦 里 住 了 大 半 幸 和子 可 能 一 个 单元 的 人 都 认 不 人 全。 那么 对 于 整个 社 
会 里 的 更 为 复杂 的 协作 关系 如 何 协调 ? 这 种 新 社会 体系 下 的 关系 目 然 


需要 把 征 信 数据 进行 合法 化 管理 ， 让 人 们 把 它 当 成 自己 的 终生 名 片 来 
珍视 和 爱护 。 这 种 征 信 征 城市 人 之 间 协 作 的 保障 ， 它 的 变现 是 人 们 为 
了 付出 一 些 金钱 成 本 去 消除 人 信誉 的 不 确定 性 的 一 种 变现 方式 。 


[1] 来 源 于 《北京 娱乐 信 报 》。 


18.5.3 ”场景 2， 宏观 数据 


安 观 数据 比较 简单 ， 束 是 指 统计 性 的 数据 。 如 一 个 地 区 有 多 少 艾 
滋 病 人 ， 有 是 100 还 是 50， 这 些 数据 对 于 很 多 做 社会 学 和 病理 学 研究 的 人 
征 有 意义 和 有 价值 的 。 况 且 这 只 是 一 个 数字 ， 没 有 说 谁 具 体 得 了 这 种 
病 ， 也 就 不 涉及 隐私 ， 当 然 可 以 进行 交易 。 

其 他 一 切 的 宏观 统计 数据 理论 上 说 都 是 可 以 进行 交易 的 ， 前 提 必 


须 得 到 它 的 拥有 人 的 授权 。 这 也 好 理解 ， 虽 然 卖 汽车 是 合法 的 ， 但 是 
总 不 能 把 别人 家 的 汽车 随便 开 来 卖 挥 吧 。 


宏观 数据 的 价值 到 此 为 止 吗 ? 远 不 止 。 


在 互联 网 飓风 遍 卷 整个 世界 的 时 候 ， 什 么 是 生存 的 最 终 能 力 
创新 。 创 新 说 日 了 束 古 大 量 的 个 体 去 试 ， 大 量 的 试 错 中 有 个 别 试 对 的 
活 下 来 ， 这 个 殉 是 成 功 的 创新 。 以 新 产品 市 场 人 研究 为 例 。 痢 产品 市 场 
研究 靠 什么 ?当然 是 数据 。 作 为 一 个 产品 经 理 ， 或 者 一 个 对 产品 负责 
任 的 人 ， 需 要 对 未 来 出 品 的 产品 做 一 个 评估 。 产 品 准备 卖 给 谁 ? RE 
D? 在 什么 地 区 卖 ? 借助 什么 渠道 卖 ? 毛利 大 概 多 少 ? 产品 的 预期 生 
存 周期 是 多 少 ? 有 办 法 消除 这 些 疑 问 的 不 确定 性 吗 ? 还 是 闭 着 眼 去 
试 ? 


举 一 个 例 于 。 如 有 果 想 开 一 个 店 。 会 在 哪里 选 址 ? 会 卖 什么 ? 怎么 
来 做 BP (Business Plan， 商 业 计 划 ) 。 需 要 了 解 的 信息 包括 各 街区 的 
人 流量 信息 ; 在 某 一 街区 人 流 信息 中 的 年 龄 段 比例 ， 这 些 人 在 这 些 街 
区 购买 对 应 产品 的 平均 预算 ， 这 些 人 是 喜欢 一 个 人 来 还 古 结伴 而 来 ; 
在 哪些 时 间 段 人 流量 会 比较 大 ， 大 到 什么 程度 。 


这 些 信息 会 帮助 把 这 个 BP 充实 起 来 ， 当 对 这 些 信息 有 了 比较 充分 
的 了 解 后 可 以 更 容易 去 做 决定 。 


如 果 街 区 的 人 流量 本 喘 束 不 足 ， 甚 至 大 部 分 痢 是 匆匆 的 过 客 ， 屠 
可 能 开店 本 号 都 成 为 困难 了 。 


这 个 地 区 的 过 客 部 是 些 什 么 人 ， 是 一 些 上 下 学 回 家 的 小 朋友 ， 年 
轻 的 上 班 族 还 是 广场 舞 大 妈 们 ? 这 会 帮助 选择 ， 是 卖 甜 甜 圈 、 奶 茶 还 
征 商 务 人 士 喜 欢 的 咖啡 下午 茶 ， 还 是 适合 本 地 人 口味 的 生 饼 、 是 
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他 们 每 天 的 预算 决定 了 卖 的 单 品 的 
还 是 应 该 更 贴近 大 众 更 实惠 。 
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一 个 人 来 还 古 结 伴 来 古 不 一 样 的 ， 尤 其 是 结伴 来 的 人 是 商务 大 
R` EBRR, DERLER? 这 决定 了 出 售 的 单 品 在 差异 化 上 应 该 


迎合 哪些 人 的 习惯 。 十 应 该 精致 、 混 漫 ， 还 是 搞怪 猎奇 。 


时 间 段 对 于 人 流 的 影响 也 间接 影响 到 人 力 成 本 ， 是 一 个 人 能 搞定 
这 个 事情 ， 还 是 要 两 个 人 全 职 ， 还 是 在 高 峰 段 雇 一 个 勤工俭学 的 学 生 


帮忙 打 理 。 这 也 是 影响 预算 的 重要 因素 。 


这 些 数据 完全 不 用 担心 没有 人 卖 ， 只 要 有 需求 ， 束 会 有 人 考虑 
卖 ， 只 要 这 种 数据 对 消除 不 确定 性 有 帮助 ， 那 束 会 有 市 场 ， 只 要 数据 
的 提供 还 有 利 可 图 ， 那 束 会 吸引 更 多 的 人 继续 加 入 数据 的 生产 与 提 
p 


刚刚 这 些 数 据 ， 如 果 用 3000 元 能 买 到 ， 会 考虑 购买 吗 ? 可 以 选择 
花 3000 元 买 下 它 ， 然 后 认真 阅读 和 研究 ， 也 可 以 选择 花 20 万 元 把 店 先 
开 起 来 ， 开 的 过 程 中 再 摸索 。 究 竟 哪 一 种 更 划算 ， 仁 者 见 仁 智 者 见 


智 。 


还 有 一 些 数据 ， 它 的 宏观 价值 会 更 容易 直接 被 人 看 到 。 例 ， 某 地 
区 的 某 种 疾病 的 意外 事故 、 发 病 率 、 分 布 年 龄 段 、 治 鳃 率 等 。 这 些 宏 
观 统计 信息 不 涉及 任何 个 人 隐私 内 容 ， 有 价值 吗 ? A! 谁 会 对 这 些 数 
据 感 兴趣 ? 至 少 有 两 种 行业 会 对 这 种 数据 感 兴趣 。 一 个 是 保险 行业 ， 
一 个 是 制药 行业 。 保 险 公 司 购买 这 样 的 数据 用 来 设计 和 调整 险种 ， 制 
药 厂 购买 这 些 数据 用 来 研究 一 些 细 分 类 的 药品 。 这 些 信息 能 够 极 大 地 
消除 不 确定 性 市 来 的 成 本 并 提高 产品 设计 的 针对 性 。 


18.5.4 场景 3: MAŽE 


画像 数据 在 前 面 的 章 世 中 多 次 提 到 。 画 像 数据 指 的 殉 是 一 个 人 、 
一 个 终端 或 者 任何 一 个 物体 的 表述 标签 信息 。 这 些 标签 信息 ， 尤 其 是 
针对 人 的 画像 ， 虽 然 包 合 了 大 量 的 人 的 隐私 或 者 关键 性 的 摘 述 信息 ， 
但 是 只 要 把 握 一 点 ， 这 些 数 据 里 面 不 要 轻易 定位 到 人 。 只 要 不 定位 到 
人 ， 那 么 这 些 画像 信息 再 如 何 丰富 也 不 能 算 作 是 侵犯 隐私 。 这 一 点 很 
重要 ， 这 已 经 给 了 人 们 变现 的 空间 。 


如 通过 一 个 MAC 地 址 ， 可 以 请 求 到 一 些 兴 趣 相关 的 标签 。 这 个 显 
然 与 个 人 隐私 没什么 关系 。 通 过 一 个 人 的 手机 号 ， 能 够 请 求 到 一 些 关 
于 他 通话 时 长 或 者 网 络 流量 大 小 的 数据 。 这 个 算 隐私 吗 ? 只 要 这 不 是 
那 种 他 不 想 让 别人 知道 的 数据 ， 束 不 能 算 隐 私 。 所 以 数据 的 开放 和 拥 
有 者 的 授权 体系 应 该 是 大 数据 交易 和 变现 的 制度 性 和 技术 性 保障 根 
源 。 


18.6 ”小结 


数据 的 价值 是 一 种 不 会 枯竭 的 资源 ， 它 不 断 产 生 ， 不 断 被 人 挖 
据 ， 不 会 轻易 到 达 生 产量 的 上 限 ， 它 能 够 解放 生产 力 ， 从 这 个 角度 来 
说 ， 它 驶 像 第 一 次 工业 音 命 时 候 的 蒸汽 机 ， 第 二 次 工业 单 命 时 候 的 电 
力 一 样 有 能 量 。 


附录 A VMware Workstation’) 222% 


A.1  VMwarefüjfr 
VMware 是 由 VMware 公司 (VMware, Inc.) 开发 ， 业 内 非常 著名 
的 虚拟 化 软件 。 它 使 用 人 简单， 基于 图 形 化 管理 ， 而 且 效 率 非 常 高 。 


它 为 用 户 提供 了 多 个 版 本 ， 包 括 : VMware 工作 站 (VMware 
Workstation) 、VMware 服 务 器 (VMware Server) ^ VMware ESX 服 务 


aa (VMware ESX Server) ， 以 及 云端 版 本 等 。 


这 里 主要 为 读者 提供 VMware 的 桌面 级 产品 VMware 工作 站 版 本 ， 
读者 可 以 杀 目 动手 实践 ， 在 不 破坏 Windows 工 作 环 境 下 ， 体 验 Linux 操 
作 系 统 的 使 用 和 在 Linux 操 作 系 统 环境 下 使 用 大 数据 热门 的 软件 。 


A2 安装 前 的 准备 工作 


1. 硬 件 配 置 需求 


在 安 泌 软件 之 前 用 户 需 要 准备 足够 的 磁盘 空间 和 运行 时 所 占用 的 
内 存 ， 为 了 保证 大 数据 软件 流畅 运行 ， 至 少 保证 如 下 硬件 配置 。 


‘CPU: Intel Core i3 ° 


.内 存 : 4.00GB ° 


.硬盘 空间 : 30GB ° 


2.VMware 下 载 方法 


可 以 从 VMware 软件 的 官方 网 站 下 载 最 新 版 本 的 VMware。 最 新 版 
本 为 VMware Workstation 12， 下 载 地 址 如 下 : 


http://www.vmware.com/products/workstation/workstation-evaluation ° 


如 果 读 者 使 用 的 是 Windows 操 作 系 统 ， 可 以 单 击 Download Now 按 
钮 进行 下 载 ， 网 页 内 容 如 图 A-1 所 示 。 


Download VMware Workstation Pro Trial 


WORKSTATIO 
PRO 
- 


Dal LER senos, tamea ed 


VMware Workstation 12 Pro for Windows 64-bit 


VMware Workstation 12 Pro for Linux 64-bit 


图 A-1 下 载 页 面 


VMware Workstation 为 商业 软件 ， 用 户 可 以 免费 试用 30 天 。 


3. 安 装 过 程 


下 载 完 成 后 ， 正 式 进入 安 狠 环 广 ， 首 先 运行 软件 ， 进 入 友好 的 安 
Ae ARE, UHADA-2BTZM ° 


下 一 步 ， 来 到 “最 终 用 户 许可 协议 ”界面 ， 同 意 后 进入 下 一 步 ， 如 


图 A-3 所 示 。 
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图 A-3 “最 终 用 户 许 可 协议 ”界面 


继续 选择 安装 位 置 ， 这 里 选择 了 默认 安装 位 置 ， 读 者 可 以 根据 实 
际 情况 单 击 “ 更 改 ” 按 钮 选择 人 磁 副 空间 较 大 的 分 区 ， 继 续 单 击 “ 下 一 
步 ” 按 钮 ， 如 图 A-4 所 示 。 


进入 准备 安装 界面 ， 单 击 “ 安 装 ?” 按 钮 后 开始 进行 VMware 的 安装 ， 
如 图 A-5 所 示 。 


当 安 装 进 度 条 完成 时 ，VMware 软 件 即 可 安装 成 功 ， 如 图 A-6 所 


ma 


安装 成 功 后 会 提示 “安装 完成 "， 单 击 * 完 成 "按钮 即 可 完成 VMware 
软件 的 安装 ， 如 图 A-7 所 示 。 
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图 A-7 完成 安装 


附录 B “CentOS 虚拟 机 的 安装 方法 
B.1 下 载 光 盘 镜像 


访问 CentOS 官 方 网 站 : http://www.centos.org ， 下 载 最 新 版 本 的 
CentOS 系 统 安 闭 光 副 镜像 。 本 示例 中 下 载 地 址 如 下 : 
http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD- 


1511.iso ° 
B.2 创建 VMware 虚拟 机 


运行 安 狠 好 的 VMware 虚 拟 机 ， 在 主 界面 单 击 “ 创 建新 虚拟 机 ” 按 
钮 ， 如 图 B-1 所 示 。 


进入 “新 建 虚拟 机 辣 导 ”界面 。 单 击 “ 浏 听 ” 按 钮 选择 下 载 的 CentOS 
7 安 洲 镜 像 ， 如 图 B-2 所 示 。 
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图 B-1 单 击 “创建 新 虚拟 机 ?按钮 


HE AEA Plas 
RAEAN. SRR Qa RR? 


3 op 
ORR TRO}: 
KAD 


t 
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图 B-2 选择 CentOS 7 安装 镜像 


VMware 会 目 动 检 测 到 ISO 文件 对 应 的 操作 系统 类 型 ， 单 击 “ 下 一 
步 ? 按 钮 ， 进 入 虚拟 机 设置 部 分 ， 为 虚拟 机 起 一 个 好 识别 的 名 称 并 设置 
保存 位 置 ， 建 议 将 虚拟 机 保存 到 空间 充 容 的 分 区 ， 随 着 使 用 次 数 的 增 
多 ， 虚 拟 机 占用 磁 副 空间 会 逐渐 增 大 。 这 里 将 虚拟 机 安装 到 E 副 下 的 
目录 ， 如 图 B-3 所 示 。 


单 击 “ 下 一 步 "按钮 ， 设 置 虚 拟 磁盘 大 小 ， 需 要 注意 的 是 ， 分 配 的 
人 磁盘 空间 不 会 立即 被 占用 ， 随 着 存储 的 数据 增加 占用 空间 会 逐渐 增 
大 。 这 里 保持 默认 设置 即 可 ， 如 有 果 需 要 增加 磁盘 衬 间 ， 可 以 在 安装 系 
统 后 进行 添加 。 单 击 * 下 一 步 ? 按 钮 ， 完 成 基本 安装 ， 如 图 B-4 所 示 。 
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图 B-4 指定 磁盘 容量 


进入 安装 的 最 后 阶段 : “ 自 定 义 硬 件 界 面 ”， 通 过 这 个 界面 可 以 定 
义 虚 拟 机 支持 的 硬件 ， 这 里 保持 默认 设置 即 可 ， 单 击 “ 完 成 ”按钮 后 ， 
开始 进行 CentOS 操 作 系 统 的 安装 。 


B.3 安装 CentOS 7 操作 系统 


CentOS 7 安装 光盘 镜像 引导 后 ， 会 出 现 安装 引导 界面 ， 在 这 个 界 
面 下 可 以 进行 ISO 的 光一 完整 性 检测 等 操作 。 安 装 新 的 CentOS 系 统 ， 
在 这 里 选择 Install CentOS 7 选项 即 可 ， 进 入 开始 安装 界面 ， 如 图 B-5 所 


7N °? 


首先 进入 语言 选择 界面 ， 这 里 在 下 拉 列 表 框 中 选择 “简体 中 文 (中 
E) ”选项 ， 并 单 击 “ 继 续 ” 按 钮 ， 如 图 B-6 所 示 。 


接 下 来 进入 安装 设置 部 分 ， 在 “软件 选择 ?选项 根据 虚拟 机 类 型 来 
定制 软件 包 ， 如 图 B-7 所 示 。 

这 里 建议 初次 使 用 Linux 的 读者 克 择 高 有 图 形 界 面 的 软件 包 ， 单 
TR EPR IA, TES AE GNOMER [alee 5 
击 “ 完 成 ”按钮 ， 如 图 B-8 所 示 。 
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sunm. H peste T | r Pree " " ET . 


先 择 ” 界 面 


RAE A, 


选择 “ 自 


动 配置 分 区 ” 单 选 按 钮 ， 并 单 击 “ 完 成 ”按钮 即 可 ， 由 于 Linux 操 作 系统 


的 分 区 方式 较 灵活 ， 不 推荐 初次 使 用 的 用 户 自 动 分 区 ， 
的 系统 文件 。 操 作 方 法 如 图 B-9 所 示 。 

完成 设置 后 ，“ 开 
UTERE 


THAR EZ, UHAIB-10BTzn ° 


避免 删除 重要 


从 安装 ”按钮 已 经 可 以 使 用 了 ， 单 击 “ 开 始 安 


安装 进度 条 会 提示 安装 的 进展 ， 在 安装 过 程 中 ， 用 户 可 以 设置 
Linux 管 理 员 的 密码 ，Linux 操 作 系统 的 超级 管理 员 叫 做 root， 相 当 于 
Windows 中 的 Administrator， 单 击 “ROOT 密 码 ” 按 钮 ， 设 置 一 个 不 容易 
被 遗 乐 的 密码 ， 在 对 CentOS 操 作 系 统 进行 管理 时 ， 会 用 到 这 个 账号 和 
密码 。 除 了 root 用 户 ， 还 需要 为 Linux 添 加 一 个 非 管理 用 户 ， 用 于 日 常 
使 用 ， 这 里 可 以 根据 目 己 的 习惯 创建 一 个 自己 喜欢 的 用 户 名 和 密码 ， 
如 图 B-11 所 示 。 


设置 完成 后 会 提示 “已 经 设置 ROOT 密 码 ”"， 等 待 进度 条 完成 系统 
即 可 成 功 安 装 。 安 装 完成 后 单 击 “ 重 启 ” 按 钮 ， 就 可 以 进行 CentOS 系 统 
的 使 用 了 ， 如 图 B-12 所 示 。 
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图 B-10 ” 单 击 “开始 安装 ”按钮 
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图 B-12 ”完成 安装 


附录 C ”Python 语言 简介 


Python 是 一 种 面 问 对象 的 解释 型 计算 机 程序 设计 语言 ， 由 Guido 
van Rossum 于 1989 年 发 明 ， 第 一 个 公开 发 行 版 发 行 于 1991 年 。 


Python 是 纯粹 的 目 由 软件 ， 它 的 源 代码 和 解释 絮 CPython 遵 循 GPL 
(GNU General Public License) 协议 。 


Python 和 C 语 言 不 一 样 ， 它 征 一 种 脚本 语言 。C 语 言 在 写 完 源 代码 
后 征 需 要 编译 成 二 进 制 代码 才能 够 执行 的 ，Python 则 不 需要 ， 它 在 生 
产 环境 中 出 现 仍旧 是 源 代 码 的 .py 文件 形式 ， 在 执行 的 瞬间 才 由 Python 
een A RRA DR, Aa Python ie eae RUT IA F 
T3 ° 
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一 样 “ 一 次 编写 到 人 处 执行 *”。 缺点 也 古 显 而 易 见 的 ， 就 十 每 次 进行 字 市 
码 转 换 和 字 市 码 执 行 时 没有 直接 执行 二 进 制 的 效率 高 。 好 在 对 于 执行 
效率 苛刻 的 场合 毕 葛 较 少 ， 男 外 ， 随 着 计算 机 硬件 能 力 的 提升 ， 执 行 
效率 的 矛盾 也 变 得 不 明显 了 。 


和 其 他 计算 机 语言 一 样 ，Python 语 言 也 有 自己 的 一 套 语 法 基础 。 
有 顺序 、 分 文 、 循 环 、 调 用 的 程序 组 织 结构 ， 以 及 数字 、 字 符 串 、 列 
表 、 元 组 、 集 合 等 多 种 数据 类 型 。 


1. 安 装 Python 


安装 Python 的 方法 不 止 一 种 ， 这 里 只 介绍 使 用 yum 安 闭 Python 的 方 
T Oo 


按照 默认 方式 安 狠 好 CentOS 7 操作 系统 后 ，Python 已 经 被 正确 安 
装 ， 可 以 执行 如 下 命令 得 看 : 


[root@localhost Desktop]# python -V 
Python 2.7.5 


2.Hello World 


Python 的 Hello World 与 其 他 计算 机 语言 没什么 区 别 ， 而 且 更 加 简 
洁 ， 可 以 直接 在 交互 式 编程 环境 中 编写 : 


print ( 


"Hello. 


Python! 


3. 行 与 缩 进 


Python 脚 本 文件 和 普通 的 文本 文件 没有 太 大 区 别 ， 一 般 以 .py 作为 


后 级。 


/usr/bin/python 
# -*- coding 


UTF-8 -*- 
# 文件 名 : 


test ,py 
if True 


print "True" 
else. 


print "False" 


其 中 # 为 注释 标记 ， 如 采 在 一 行 中 使 用 #， 那 么 # 后 的 内 容 征 不 会 被 
解释 执行 的 。 


下 面 的 if 和 else 是 分 支 型 语句 ， 当 站 后 的 内 容 为 True (真实 ) 时 ， 
则 执行 站 所 辖 的 部 分 ， 否 则 执行 else 所 辖 的 部 分 。 


注意 Python 语言 中 是 不 用 begin/end 或 {} 来 表示 执行 段落 的 起 止 
的 ， 这 里 的 让 和 else 需 要 左 侧 对 齐 ， 用 缩 进 来 表示 段落 所 辖 范 围 界限 。 


Python 语言 中 标准 的 数据 类 型 有 几 种 : Numbers (F) ^ String 
(FFE) 、List (列表 ) ^ Tuple 〈 元 组 ) ` Dictionary (#2) 。 


/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
counter = 100 # 赋值 整 型 变量 


miles = 1000.0 # 浮 点 型 


name = "John" # 字符 串 


print counter 
print miles 
print name 


这 上 段 代 码 演示 了 整数 型 数字 、 浮 点 型 数 子 以 及 字符 串 类 型 的 赋值 
和 打印 操作 。 


/usr/bin/python 
# -*- coding: 


UTF-8 -*- 
list = [ ‘abcd’, 


786 , 


"john ' ， 


70.2 ] 
tinylist = [123. 


'! john'] 
print list # uH 


整 列表 


st 


print list[0] # 输出 列表 的 第 一 个 元 素 


print list[1: 


3] # 输出 第 二 个 至 第 三 个 元 素 


print list[2: 


] # 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 


print tinylist * 2 # 输出 列表 两 次 


print list + tinylist # 打印 组 合 的 列表 


这 上 段 代 码 演示 的 是 列表 类 型 的 操作 ， 列 表 很 像 Java 语 言 中 的 数 
L1 


组 ， 只 是 列表 人 允许 不 同类 型 的 数据 放 在 同一 个 列表 中 ， 而 数组 不 可 以 
一 一 它 只 能 要 求 所 有 的 元 素 类 型 一 致 。 
/usr/bin/python 


# -*- coding: 


"abcd ' ， 


786 . 


' john', 


tinytuple = ( 


123. 


'! john') 


整 元 组 


st 


print tuple # 5$ 


M 


print tuple[0] £ ‘iH 


组 的 第 一 


“i 


素 


dl 


print tuple[1: 


3] & 输出 第 二 个 至 第 三 个 元 素 


print tuple[2: 


] 9 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 


print tinytuple * 2 # 输出 元 组 两 次 


print tuple + tinytuple # 打印 组 合 的 元 组 


这 段 代 码 演 示 的 是 元 组 类 型 的 操作 。 操 作 方 法 和 列表 很 像 ， 但 是 
Python 语 法 不 允许 对 元 组 中 的 元 素 进行 二 次 巍 值 。 它 相当 于 只 读 类 型 
的 列表 。 


/usr/bin/python 
# -*- Coding 


UTF-8 -*- 
dict = {} 
dict['one'] = "This is one" 


dict[2] = "This is two" 
tinydict = {'name' 


! john', 


'code' 


6734. 


'dept': 


"sales'} 
print dict['one'] # 输出 键 为 


‘Tone! 的 值 


print dict[2] # 输出 键 为 


2 的 值 


print tinydict s 输出 完整 的 字典 


EE 
ci 


print tinydict.keys () 


# 输出 所 有 键 


print tinydict.values () 


# 输出 所 有 值 


这 上 段 代码 演示 的 是 字典 类 型 的 操作 。 字 上 典 类 型 有 些 像 Java 中 的 
HashMap， 是 通过 主键 Key 来 访问 对 应 的 Value 值 ， 而 不 是 靠 下 标 来 访 
问 。 


5. 循 环 语句 


/usr/bin/python 
count = 0 
while | 


count < 9) : 


print 'The count is 


count 
count = count + 1 
print "Good bye! 


这 段 代 码 演示 的 是 while 循 环 ，while 循 环 后 面 的 条 件 表示 在 满足 条 
件 的 时 候 执 行 while 所 辖 的 程序 段 。 在 这 段 程序 中 表示 count<9 的 情况 


P. BUT RAAT), DEAH 


print "Good bye! 


yo A 

IX—1T ° 
#1 
/usr/bin/python 


# -*- coding 


UTF-8 -*- 
for num in range ( 


10. 


20) : 


# 和 迭代 


10 到 


20 之 间 的 数字 


for i in range ( 


num) : 


# 根据 因子 迭代 


if num%i == 0 


j=num/i 


print '%d 等 于 


%d * 96d' % | 


num, 


# 计算 第 二 个 


break 


else. 


# 循环 的 


else 部 分 


print num 


出 当前 循环 


上 面 这 段 程 序 略 显 党 琐 ， 但 是 内 容 仍然 很 商 单 。 


这 是 循环 的 男 一 种 写法 


for 循 环 ，for 循 环 也 是 一 种 循环 ， 后 面 


写 出 的 是 一 个 循环 范围 。 这 里 是 一 个 二 重 循环 ， 也 融 是 两 个 循环 发 生 
了 骨 套 一 一 在 一 个 循环 的 执行 中 有 另 一 个 循环 。 外 层 循 环 是 让 num 在 
10 和 20 之 间 做 循环 ， 内 技 循 环 旦 i 在 2 和 num 之 间 做 循环 。 


/usr/bin/python 
# -*- coding 


UTF-8 -*- 
# 定义 画 数 


def printme | 


str): 
"打印 任何 传 入 的 字符 串 
W 
print str; 
return; 
# AKZ 
printme | 


" SER REI E oe BM! 


printme | 


"再 次 调用 同一 画 数 


画 数 是 一 种 最 小 单位 的 代码 段 封 装 。 关 键 字 是 def，def 后 面 的 
printme 是 画 数 名 ，str 是 参数 名 称 。 这 个 画 数 的 内 容 就 是 直接 打印 传 入 
的 变量 值 。 


最 后 两 句 是 对 函数 的 调用 。 


7. 模 块 


/usr/bin/python 
# -*- coding 


UTF-8 -*- 
# SABER 


import support 
# 现在 可 以 调用 模块 里 包含 的 画 数 了 


support.print_func ( 


"Zara") 


模块 是 一 种 大 单位 的 代码 段 集合 ， 例 如 ， 一 个 support.py 的 文件 中 
有 多 个 函数 定义 ， 其 中 一 个 叫做 print_func 函 数 。 在 不 对 support.py 这 个 
模块 进行 引用 的 时 候 是 不 能 调用 print_func 了 范 数 的 。 上 面 这 段 代码 中 ， 
import support 是 导入 support.py 模 块 ， 下 面 的 support.print_func 
("Zara") 是 调用 support 中 的 print 函 数 ， 并 传 入 变量 "Zara" 作 为 参数 。 


from fib import Fibonacci 


这 征 寻 入 模块 的 另 一 种 写法 ， 区 别 是 它 能 够 导入 一 个 模块 的 一 部 
分 而 非 全 部 模块 代码 。 示 例 中 十指 从 fib 这 个 模块 中 只 导入 Fibonacci 这 
个 函数 。 


8. 小 结 


以 上 惑 是 Python 语言 中 所 涉及 的 最 基本 的 语法 。 而 强大 的 Python 
所 文 持 的 其 他 内 容 读者 如 采 有 兴趣 可 以 再 找 一 些 专门 介绍 Python 的 资 
料 来 学 习 ， 本 书 对 Python 基本 语法 的 介绍 到 此 为 止 。 


在 本 书 中 所 列举 的 示例 代码 中 ， 所 涉及 的 库 有 以 下 几 个 。 


(1) NumPy。NumPy 系 统 是 Python 的 一 种 开源 的 数值 计算 扩展 
库 。 它 提供 了 许多 高 级 的 数值 编程 工具 ， 如 和 矩阵 数据 类 型 、 矢 量 处 
理 ， 以 及 精密 的 运算 库 。 专 门 用 于 严格 的 数字 人 处理。 多 为 大 型 金融 公 
司 使 用 。 核 心 的 科学 计算 组 织 ， 如 Lawrence Livermore、NASA 用 其 处 
理 一 些 本 来 使 用 C++、FORTRAN 或 MATLAB 等 所 做 的 任务 。 


(2) matplotlib。 一 个 专业 的 绘图 工具 库 ， 官 方 网 址 为 
http://matplotlib.org/ ° 


它 调 用 人 簿 单 ， 使 用 非常 方便 ， 在 配合 Python 进行 数据 挖掘 和 报表 
制作 的 过 程 中 是 一 种 利器 。 


(3) SciPy。SciPy 是 一 款 方便 、 易 于 使 用 、 专 为 科学 和 工程 设计 
的 Python 工具 包 。 它 提供 的 内 容 很 丰富， 文件 输入 输出 、 符 殊 函 数 、 
线性 代数 运算 、 快 速 传 里 叶 变 换 、 统 计 与 随机 、 微 分 和 积分 、 图 像 处 
理 等 诸多 封装 内 容 。 官 方 网址 为 http://www.scipy.org/ ， 读 者 如 果 有 兴 
趣 可 以 去 了 解 更 多 的 内 容 。 


(4) Scikit-learn。Scikit-learn 是 最 著名 的 Python 机 器 学 习 库 之 
一 ， 在 附录 DD 中 会 做 比较 详细 的 介绍 。 


SED ”Scikit-learn 库 人 简介 


Python 的 开源 社区 非常 活跃 ， 也 有 很 多 和 Java 等 开源 语言 一 样 的 
框架 或 库 体系 ， 其 中 Scikit-leam (简写 成 sklearn) 是 最 著名 的 Python 机 
88262] EZ — » ED Ph Ahttp://scikit-learn.org/stable/ ° 


sklearn 基 于 BSD 开 源 许 可 证 ， 最 早 由 David Cournapeau 在 2007 年 发 
起 ， 目 前 也 是 由 社区 自愿 者 进行 维护 ， 经 年 系 月 ， 整 个 项 目的 内 容 已 
经 相当 丰富 了 了， 目前 最 新 的 稳定 版 是 0.17 版 本 。 


用 户 手册 内 容 也 很 友好 ， 禾 盖 面 很 全 ， 包 括 有 监督 的 学 习 (分 
K) 、 无 监督 的 学 习 (FRR) 、 模 型 选择 与 评价 、 数 据 集 转换 、 数 据 
集 提取 应 用 (数据 示例 下 载 ，、 大 规模 计算 策略 、 计 算 效 率 七 大 部 


本 书 中 的 机 器 学 习 算法 大 多 使 用 sklearn 库 完成 ， 主 要 涉及 
Supervised learning 和 Unsupervised learning 两 个 部 分 ， 相 信 它 也 能 帮助 
读者 在 生产 生活 中 很 大 程度 地 提高 生产 效率 。 


在 安装 sklearn 之 前 请 确认 Python 已 经 安装 。 安 装 Python 的 方法 见 
附录 C。 


如 宁 发 现 Python 软 件 未 被 正确 安装 ， 可 以 使 用 CentOS 系 统 目 市 的 
HT Byun at {Tae ^ KARAT IAM P: 


[root@localhost Desktop]# yum install - 


y python 


然后 安装 sklearn。sklearn 的 安装 很 简单 ， 只 要 能 够 连接 上 互联 
网 ， 直 接 使 用 pip 安 装 即 可 : 


$ pip install - 


U scikit-learn 


附录 E FANN for Python 安装 


前 往 FANN 官 方 网 站 : http://leenissen.dk/fann/wp/download/ 。 单 击 
Download 按 钮 ， 进 入 下 载 页 面 ， 如 图 E-1 所 示 。 


$ Home » Downicad | 


Download 


Download FANN Library Version 2.2.0 


The latest version of FANN is always available in the github repository and for most uses, thatit the version that should be used. 


This page includes the download for the FANN C/C library, for Graphical Interfaces go in the Graphical Interface page and fer bindings 
1p other languages go to he Language Bndings page 


m 
C/C++ Library Source Code for all platforms including examples and windows DLLILIb FANN- 
files. Support for Visual Studio 2010 as well as cross platform compilation with CMAKE. 220- 

Source zip 


FANN installation Guide 
Quick install quida for the library 


For older versions of FANN go to the sourceforge Download Page 


图 E-1 下 载 页 面 


解压 缩 : 


$ unzip FANN-2.2.0-Source.zip 


编译 : 


$ cmake . 
$ make install 


PASE 群众 眼中 的 大 数据 


在 本 书 成 书 的 过 程 中 ， 笔 者 试 着 采访 过 一 些 “ 群 从 ”， 让 他 们 说 说 
他 们 眼中 的 大 数据 一 词 是 什么 概念 ， 得 到 了 很 多 有 趣 的 说 法 。 


da shu ju hao chi ma? 


一 一 尹 内 内 ， 幼 儿 班 孩子 


大 数据 并 不 一 定 是 数据 大 ， 而 是 通过 大 数据 分 析 挖 握 、 分 析 方 法 
使 得 数据 的 价值 大 大 放大 。 


可 能 很 多 人 还 会 说 大 数据 是 炒作 ， 我 认为 "存在 即 合理 ”， 现 在 市 
场 上 做 大 数据 的 公司 民 著 不 章 ， 也 说 明 目 前 正 处 于 大 数据 快速 发 展 阶 
段 ， 我 们 也 逐步 感受 到 大 数据 市 来 的 便利 ， 比 如 智 营 城 市 项 目 、 生 物 
基因 检测 等 。 如 采 你 处 于 公司 的 决策 层 ， 有 数据 做 文 撑 你 会 更 有 确 


A o 


wie, ATN 


小 县 城 林 业 工 作 数 十 年 ， 退 休 在 即 ， 回 顾 一 番 ， 变 化 最 大 的 应 该 
忠 古 案头 厚 厚 的 文档 越 来 越 少 ， 服 务 群众 的 效率 越 来 越 高 。 林 、 人 、 
企 在 数据 的 结合 相 比 以 前 位 单 的 分 类 ， 等 着 群众 来 办 事 的 方式 变 成 了 
REESI FA 


KAGE, SREK ^ SER > AME ^ kean BUTRASOS: 
的 保险 的 一 些 项 目 ， 他 们 得 到 购买 保险 的 客户 ， 根 据 数据 分 析 ， 更 好 
地 推广 他 们 的 保险 ， 把 不 同 需求 的 保险 推 给 不 同 的 人 。 


一 一 陆 飞 ， 男 程序 员 
大 数据 : 抽象 出 的 真实 世界 。 

一 一 左 妍 ， 女 程序 员 
学 好 大 数据 思维 ， 掌 握 未 来 发 展 之 道 ! 


可 上 上，IT 技 术 论 坛 创始 人 


大 数据 .…... 开 始 束 古 认为 和 数 子 有 关系 ， 基 本 认为 束 是 和 数 子 打 
交道 ， 听 到 最 多 的 就 是 Python (ENA EN) ， 虽 然 直 至 现在 也 不 
能 深 


辑 分 析 能 力 ， 对 此 目 己 也 充满 好 奇 ， 计 划 在 内 上 暇 时 间 通 过 阅读 书籍 或 
和 大 师 “ 白 话 ”*” 了 解 大 数据 (小 白 选 手 不 要 理 ) 。 


一 一 王 月 ， 德 语 专业 大 学 生 


大 数据 现 是 在 一 堆 繁 杂 的 事物 里 面 找 规律 找 共性 ， 它 应 该 能 够 影 
啊 人 类 的 生活 .…… 能 让 我 们 变 成 想象 中 的 外 星人 吗 ? 


228, AT) Ra 


大 数据 是 真正 的 新 能 源 。 它 将 成 为 每 一 个 现代 企业 的 重要 资产 ， 
并 在 人 类 商业 社会 演进 的 道路 中 扮演 关键 作用 。 


— 5J, CEO 


ABS ee ME E, A MUTE, Ae PPL 
仁 见 状 的 艺术 性 的 产业 ， 它 会 在 各 个 领域 对 各 个 行业 的 人 们 持续 不 断 
地 产生 深远 的 影响 。 


BPC 


á ”保质 保 量 啊 


Koh 


á 1B, 除了 上 次 口头 说 的 3 个 要 
求 以 外 ， 还 有 个 108 页 A4 纸 的 
格式 要 求 ， 发 你 邮箱 了 ， 记 得 


oj &G 


ae RT 
搞 了 ， 这么 大 活 儿 怎么 也 得 给 
2wie 63 


| | 
QA OHE, HTE, 20088 
| 200 


中 ot 


B: r for n in range(1,3): print " 没 问 
- 
S 


eo print " 咽 ,重要 的 事情 说 三 记 


+ ©, 
€ 


ES 昨天 给 你 找 的 笔 误 改 了 吗 ? 


erp 

rd 

IF t 
is 
Wd 


EJ 哦 。 前 天 给 你 找 的 笔 误 改 了 


Y, 吗 ? 
2, 
= 


eS) N 哦 。 o o LAR, ATB? 


\= J 
LP i 
vmm O 


- CST ERREUR ? 


E 
<7 


上 午 12:14 ORY d NE 


详情 


高 扬 
Sax 受 死 吧 ， 卷 织 神经 网 络 


4 小 时 前 全 


|: é MINES 


"é 
嗯 ， 这 种 报 进度 的 方式 我 喜欢 
了 
— 


上 午 8:18 
=e print" RER” 


a 上 午 11:46 
卷 积 是 什么 ? 是 不 是 就 是 像 汤 头 


上 午 8:14 


上 午 8:14 


DE erem 


© | 0089 


e - 没事 ， 吊 针 只 打 了 一 只 手 ， 还 
| 有 一 只 手 能 画 信 9 


”对 对 ， 福田 有 两 家 新 开 的 ,还 
有 南山 也 有 一 家 ,还 有 .. 


. print "前 几 章 内 容 会 不 会 有 点 
TUK ?" 


不 会 啊 ， 很 解渴 很 解渴 


s 
T 


- EHE "好 吧 " 


B print "没有 " 
i | 
e RI 


- print "请 把 我 当成 高 中 生 " | 


CN 。 请 我 当成 初中 生 | 


*' E, 
A 


4 ”没事 , 再 人 识 好 几 个 三 甲 医院 
运动 医学 科 的 大 夫 ， 那 手 
RERA, EET 
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